OpenAI新Agent套件实测，我把PDF一键变成了能互动的可视化网页

作为一个会反复纠结格式的人，

做 PPT、PDF、博客、海报等对我来说最难的不是写稿，也不是找图片、视频等素材，而是选合适的视觉模版。

这个模版需要满足各种尺寸的屏幕，最好字距、行间距、怎么分段都不影响接受信息。

而现在我告诉你上面的问题都可以用一个提示语解决，你信吗？

猜猜这里又有哪一个是 AI 生成的？

答案都是，而这个提示语是藏师傅@歸藏做出来的，支持将 MarkDown 形式的图片、视频、文字转成可视化网页，而我想在这基础上尝试进一步省略掉信息处理这一步，只需要把链接丢给提示语，就可以直接拿到能访问的可视化网页，甚至是用 OpenAI 新推出的 Agent 套件手敲一个可视化 Agent 出来。

先来看看提示语本体吧（长文提醒）：

我会给你一个文件，分析内容，并将其转化为美观漂亮的中文可视化网页作品集：

## 内容要求
- 所有页面内容必须为简体中文
- 保持原文件的核心信息，但以更易读、可视化的方式呈现
- 在页面底部添加作者信息区域，包含：
  - 作者姓名: [卡尔]
  - 社交媒体链接: 至少包含：https://x.com/aiwarts
  - 版权信息和年份

## 设计风格
- 整体风格参考Linear App的简约现代设计
- 使用清晰的视觉层次结构，突出重要内容
- 配色方案应专业、和谐，适合长时间阅读

## 技术规范
- 使用HTML5、TailwindCSS 3.0+（通过CDN引入）和必要的JavaScript
- 实现完整的深色/浅色模式切换功能，默认跟随系统设置
- 代码结构清晰，包含适当注释，便于理解和维护

## 响应式设计
- 页面必须在所有设备上（手机、平板、桌面）完美展示
- 针对不同屏幕尺寸优化布局和字体大小
- 确保移动端有良好的触控体验

## 媒体资源
- 使用文档中的Markdown图片链接（如果有的话）
- 使用文档中的视频嵌入代码（如果有的话）

## 图标与视觉元素
- 使用专业图标库如Font Awesome或Material Icons（通过CDN引入）
- 根据内容主题选择合适的插图或图表展示数据
- 避免使用emoji作为主要图标

## 交互体验
- 添加适当的微交互效果提升用户体验：
  - 按钮悬停时有轻微放大和颜色变化
  - 卡片元素悬停时有精致的阴影和边框效果
  - 页面滚动时有平滑过渡效果
  - 内容区块加载时有优雅的淡入动画

## 性能优化
- 确保页面加载速度快，避免不必要的大型资源
- 图片使用现代格式(WebP)并进行适当压缩
- 实现懒加载技术用于长页面内容

## 输出要求
- 提供完整可运行的单一HTML文件，包含所有必要的CSS和JavaScript
- 确保代码符合W3C标准，无错误警告
- 页面在不同浏览器中保持一致的外观和功能

请根据上传文件的内容类型（文档、数据、图片等），创建最适合展示该内容的可视化网页。

我的优化思路也很简单，

jina-ai 可以将网页内容转成 MarkDown 格式
B站等视频网站可以通过API获取某个视频的详细参数（分P、ID、弹幕等），再用正则就可以输出一个完整的嵌入代码，长这样

<iframe src="//player.bilibili.com/player.html?isOutside=true&bvid=XXXXXXX&cid=XXXXXXX&p=1" scrolling="no" border="0" frameborder="no" framespacing="0" allowfullscreen="true"></iframe>

比起人工复制的缺点可能是 jina-ai 转出来的文本里面可能有一大堆无用的 html，所以我按照 jina readme 设置生成图片描述，以及提取网页里的文章主体，这样网页头尾的无用链接和信息就能被过滤掉了。

怎么样是不是有模有样。

而且因为引入了程序，现在可以一次性收集多个视频和网页链接，一口气生成一个可视化网页。

如果你会一点点 Trae 或者 Cursor，这时候就已经可以运行这个脚本了。BTW，如果我将这份代码打包成浏览器插件，大家会感兴趣吗？在评论区告诉我吧。

下一步就是实验一下 OpenAI 的新 Agent 套件怎么玩了，

如果不清楚这个新 Agent 套件能做到什么，可以看看我之前做的汇总：

OpenAI将Agent打包进了API，GPT版Computer Use可算来了

目前 Response API 和 Agent SDK 都不支持中转 OpenAI API

在 OpenAI 的 Github 项目 openai-agents-python里介绍了新 Agent 套件的两种用法：

第一种是单 Agent，支持将本地的代码转成 Agent 工具能力
第二中是多 Agent，一个主 Agent 里嵌入多个 Agent，由主 Agent 决定什么时候调用哪个 Agent

所以这次我将定义一个 Agent 工作流，先通过文本格式化和压缩Agent来整理文本，再通过质量检测Agent来判断内容有效性来节省Tokens，最后通过网页生成Agent来生成 HTML代码。

可惜的是跟 Claude3.7 对比，OpenAI Agent 自带的 GPT-4o 设计感还是不太行，有点就是经过文本清洗，Jina产生的噪音和重复内容被去掉了。下一步我们来切割一下整个搭建流程吧：

这个界面是 OpenAI 内置的 traces，不需要在本地打印，每个 Agent 的耗时、输入输出、调用顺序都可以看到，你可以清晰看出 Agent 之间是如何沟通的，可惜的是没有带上 Token 的计费，这一次运行烧了0.07刀，自定义的好处就是在简单任务上，比 OWL和 OpenManus 多了一层价格优势。

这个项目真的是越读越有，

还进一步讲出了工作原理，简单来说 API 在第一次调用时就会开启一个循环，跟 OAI 平台来回通信，完成工具和子 Agent 的调用。当收到没有任何工具 or Agent 调用的第一个回复就是最终输出。

目前就个人体验来说，非技术背景前提下（毕竟会写代码的话直接用 Langchain 写 Agent 自由度更高。），

OpenAI的新Agent套件，跟 Dify、Coze 对比，入门比 Dify 难度要高一档，比 Coze 简单一档。好处就是封装性高，一个 python 文件就相当于一个 Agent，安装环境也很简单友好，用现代电脑自带的 Python 也可以基本兼容。

新发的项目太多，感觉时间都被拉长了，

而今天晚上十二点，manus才满打满算上线一周。。。

借用OpenAI发布会里的一句话

2025 is going to be the year of Agent

2025将会是Agent之年，

Agent能力越来越多，

使用门槛越来越低，

又可以搬出那句传统的话：

人人都是Agent高手了，hh

虽然这句话已经说过很多遍了，

但这样，还真的挺好的。

@ 作者 / 卡尔 @ 动手学AI知识库 / learnprompt.pro

（文：卡尔的AI沃茨）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复