成功率97.8%!中科院PPTAgent模拟人类制作流程,高质量PPT轻松搞定

制作高质量的PPT是很多小伙伴的烦恼,现有的自动化PPT生成方法大多只关注文本内容的生成,忽略了视觉设计结构连贯性,导致生成的PPT在实际应用中效果不佳。
中科院提出并开源PPTAgent一种基于编辑的两阶段PPT生成框架,灵感来源于人类制作PPT的工作流程。
PPTAgent的工作流程如下:

第一阶段:PPT分析

  • 幻灯片聚类:将参考PPT中的幻灯片按照功能(如开场、过渡、内容展示等)和视觉特征进行分类。
  • 内容模式提取:分析每个幻灯片的内容结构,提取出关键元素及其布局模式,为后续生成提供模板。

第二阶段:PPT生成

  • 大纲生成:根据输入文档和参考PPT的分析结果,生成详细的PPT大纲,明确每页幻灯片的内容和布局。
  • 幻灯片生成:通过一系列可执行的编辑操作(如替换文本、插入图片等),动态修改参考幻灯片,生成最终的PPT。
此外,研究者还提出了 PPTEval,这是一个多维度的PPT评估框架,从内容、设计和连贯性三个维度对生成的PPT进行全面评估。内容维度关注文本和图片的质量;设计维度评估视觉吸引力和一致性;连贯性维度则衡量PPT的逻辑结构和叙事流畅性。
PPTAgent在内容、设计和连贯性三个维度上均显著优于传统方法。
  • 使用GPT-4o模型时,PPTAgent在设计维度上的评分比传统方法高出33%连贯性评分高出34%
  • PPTAgent的成功率高达97.8%,在多个领域的数据上表现出色。
  • 开源的Qwen2.5模型在经过优化后,能够与GPT-4o相媲美,展现出强大的生成能力。

https://arxiv.org/abs/2501.03936PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slideshttps://github.com/icip-cas/PPTAgent.

(文:PaperAgent)

欢迎分享

发表评论