OpenAI新Agent套件实测,我把PDF一键变成了能互动的可视化网页

作为一个会反复纠结格式的人,

做 PPT、PDF、博客、海报等对我来说最难的不是写稿,也不是找图片、视频等素材,而是选合适的视觉模版。

这个模版需要满足各种尺寸的屏幕,最好字距、行间距、怎么分段都不影响接受信息。

而现在我告诉你上面的问题都可以用一个提示语解决,你信吗?

猜猜这里又有哪一个是 AI 生成的?

答案都是,而这个提示语是藏师傅@歸藏做出来的,支持将 MarkDown 形式的图片、视频、文字转成可视化网页,而我想在这基础上尝试进一步省略掉信息处理这一步,只需要把链接丢给提示语,就可以直接拿到能访问的可视化网页,甚至是用 OpenAI 新推出的 Agent 套件手敲一个可视化 Agent 出来。

先来看看提示语本体吧(长文提醒):

我会给你一个文件,分析内容,并将其转化为美观漂亮的中文可视化网页作品集:

## 内容要求
- 所有页面内容必须为简体中文
- 保持原文件的核心信息,但以更易读、可视化的方式呈现
- 在页面底部添加作者信息区域,包含:
  - 作者姓名: [卡尔]
  - 社交媒体链接: 至少包含:https://x.com/aiwarts
  - 版权信息和年份

## 设计风格
- 整体风格参考Linear App的简约现代设计
- 使用清晰的视觉层次结构,突出重要内容
- 配色方案应专业、和谐,适合长时间阅读

## 技术规范
- 使用HTML5、TailwindCSS 3.0+(通过CDN引入)和必要的JavaScript
- 实现完整的深色/浅色模式切换功能,默认跟随系统设置
- 代码结构清晰,包含适当注释,便于理解和维护

## 响应式设计
- 页面必须在所有设备上(手机、平板、桌面)完美展示
- 针对不同屏幕尺寸优化布局和字体大小
- 确保移动端有良好的触控体验

## 媒体资源
- 使用文档中的Markdown图片链接(如果有的话)
- 使用文档中的视频嵌入代码(如果有的话)

## 图标与视觉元素
- 使用专业图标库如Font Awesome或Material Icons(通过CDN引入)
- 根据内容主题选择合适的插图或图表展示数据
- 避免使用emoji作为主要图标

## 交互体验
- 添加适当的微交互效果提升用户体验:
  - 按钮悬停时有轻微放大和颜色变化
  - 卡片元素悬停时有精致的阴影和边框效果
  - 页面滚动时有平滑过渡效果
  - 内容区块加载时有优雅的淡入动画

## 性能优化
- 确保页面加载速度快,避免不必要的大型资源
- 图片使用现代格式(WebP)并进行适当压缩
- 实现懒加载技术用于长页面内容

## 输出要求
- 提供完整可运行的单一HTML文件,包含所有必要的CSS和JavaScript
- 确保代码符合W3C标准,无错误警告
- 页面在不同浏览器中保持一致的外观和功能

请根据上传文件的内容类型(文档、数据、图片等),创建最适合展示该内容的可视化网页。

我的优化思路也很简单,

  1. jina-ai 可以将网页内容转成 MarkDown 格式
  2. B站等视频网站可以通过API获取某个视频的详细参数(分P、ID、弹幕等),再用正则就可以输出一个完整的嵌入代码,长这样
<iframe src="//player.bilibili.com/player.html?isOutside=true&bvid=XXXXXXX&cid=XXXXXXX&p=1" scrolling="no" border="0" frameborder="no" framespacing="0" allowfullscreen="true"></iframe>

比起人工复制的缺点可能是 jina-ai 转出来的文本里面可能有一大堆无用的 html,所以我按照 jina readme 设置生成图片描述,以及提取网页里的文章主体,这样网页头尾的无用链接和信息就能被过滤掉了。

怎么样是不是有模有样。

而且因为引入了程序,现在可以一次性收集多个视频和网页链接,一口气生成一个可视化网页。

如果你会一点点 Trae 或者 Cursor,这时候就已经可以运行这个脚本了。BTW,如果我将这份代码打包成浏览器插件,大家会感兴趣吗?在评论区告诉我吧。

下一步就是实验一下 OpenAI 的新 Agent 套件怎么玩了,

如果不清楚这个新 Agent 套件能做到什么,可以看看我之前做的汇总:

OpenAI将Agent打包进了API,GPT版Computer Use可算来了

目前 Response API 和 Agent SDK 都不支持中转 OpenAI API

在 OpenAI 的 Github 项目 openai-agents-python里介绍了新 Agent 套件的两种用法:

  • 第一种是单 Agent,支持将本地的代码转成 Agent 工具能力
  • 第二中是多 Agent,一个主 Agent 里嵌入多个 Agent,由主 Agent 决定什么时候调用哪个 Agent

所以这次我将定义一个 Agent 工作流,先通过文本格式化和压缩Agent来整理文本,再通过质量检测Agent来判断内容有效性来节省Tokens,最后通过网页生成Agent来生成 HTML代码。


可惜的是跟 Claude3.7 对比,OpenAI Agent 自带的 GPT-4o 设计感还是不太行,有点就是经过文本清洗,Jina产生的噪音和重复内容被去掉了。下一步我们来切割一下整个搭建流程吧:

这个界面是 OpenAI 内置的 traces,不需要在本地打印,每个 Agent 的耗时、输入输出、调用顺序都可以看到,你可以清晰看出 Agent 之间是如何沟通的,可惜的是没有带上 Token 的计费,这一次运行烧了0.07刀,自定义的好处就是在简单任务上,比 OWL和 OpenManus 多了一层价格优势。

这个项目真的是越读越有,

还进一步讲出了工作原理,简单来说 API 在第一次调用时就会开启一个循环,跟 OAI 平台来回通信,完成工具和子 Agent 的调用。当收到没有任何工具 or Agent 调用的第一个回复就是最终输出。

目前就个人体验来说,非技术背景前提下(毕竟会写代码的话直接用 Langchain 写 Agent 自由度更高。),

OpenAI的新Agent套件,跟 Dify、Coze 对比,入门比 Dify 难度要高一档,比 Coze 简单一档。好处就是封装性高,一个 python 文件就相当于一个 Agent,安装环境也很简单友好,用现代电脑自带的 Python 也可以基本兼容。

新发的项目太多,感觉时间都被拉长了,

而今天晚上十二点,manus才满打满算上线一周。。。

借用OpenAI发布会里的一句话

2025 is going to be the year of Agent

2025将会是Agent之年,

Agent能力越来越多,

使用门槛越来越低,

又可以搬出那句传统的话:

人人都是Agent高手了,hh

虽然这句话已经说过很多遍了,

但这样,还真的挺好的。

@ 作者 / 卡尔 @ 动手学AI知识库 / learnprompt.pro


(文:卡尔的AI沃茨)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往