OpenAI深度研究"Deep Research智能体及大模型故事自动分析、配音应用尝试

今天是2025年02月03日，星期一，江西，天气阴。

今天是大年初六，各位应该陆续返程了，大家归途一路顺风。

我们今天继续看一些有趣的事情，看看Deep Research的进展及后续演进以及故事自动分析及配音的大模型应用尝试。

专题化，体系化，会有更多深度思考。大家一起加油。

一、Deep Research的进展及后续演进

来看产业进展，OpenAI今天发布Deep Research(https://openai.com/index/introducing-deep-research/)，一个Agent，目标是为在金融、科学、政策和工程等领域从事密集型知识工作的人设计，这类工作需要全面、精确且可靠的调研。对于那些在购买通常需要仔细研究的商品（如汽车、家电和家具）时需要高度个性化建议的精明消费者来说，它同样很有用。每个输出都经过完整记录，附有清晰的引用和对其思考过程的总结，方便用户参考和验证信息。尤其擅长寻找那些需要浏览众多网站才能获得的非直观、小众信息。

在实现思路上，如其官方介绍，Deep Research通过端到端强化学习在多个领域的复杂浏览和推理任务中进行训练。通过这种训练，学会了规划并执行多步骤的轨迹，以找到其所需的数据，并在必要时进行回溯和对实时信息做出反应。此外，该模型能够浏览用户上传的文件，使用Python工具绘制并迭代图形，将其生成的图形和网站上的图像嵌入到其回答中，并引用其来源中的具体句子或段落。

也就是说，在具体使用上，只需给出提示，会通过查找、分析并综合数百个在线来源，生成一份综合报告，由即将推出的OpenAI o3模型的一个版本提供支持，该版本经过优化，专门用于网页浏览和数据分析。它利用推理能力搜索、解释和分析互联网上的大量文本、图像和PDF文件，并根据遇到的信息灵活调整。

但是，Deep Research完成工作可能需要5到30分钟，它会花时间深入网络进行研究。

当然，报告其实在真实场景下是富文本，包括图像、引用、段落等信息，所以，其后续还将在这些报告中添加嵌入图像、数据可视化和其他分析输出，以提供更多的清晰度和上下文。

有趣的是，Jina AI也快速了一个Deep Research的开源实现版：node-DeepResearch(https://github.com/jina-ai/node-DeepResearch)，该项目使用gemini进行llm操作，brave用于搜索，jina reader用于阅读网页。实现的原理很简单，就是在一个循环中进行搜索、阅读和推理，直到找到答案。

从技术流程的角度来看，其实现流程如下；

具象化的看，其示例中所述，

Query: “who is the biggest? cohere, jina ai, voyage?”，一共包括13steps。

当然，这个其实又是ResearchAgent，所以也会有一些看起来很类似的工作（放到科研领域）：
1、《ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models》，https://arxiv.org/abs/2404.07738 ；

2、《PaSa: An LLM Agent for Comprehensive Academic Paper Search》，https://arxiv.org/pdf/2501.10120v1，https://github.com/bytedance/pasa，https://pasa-agent.ai，https://huggingface.co/papers/2501.10120；

3、《ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models》，https://arxiv.org/pdf/2404.07738.pdf

但仔细一看，又像是AI搜索，例如秘塔搜索。所以，核心还是其中workflow的设计，理解意图，搜索医疗，总结大纲，生成内容，润色内容等。

二、故事自动分析及配音的大模型应用尝试

在这里，我们介绍社区成员的一个工作，假期写了一个自动分析故事并加上情感的配音的WebUI，能够通过简单的点击和选择，就完成一个故事的讲述，现在已经开源，地址在：https://github.com/c4fun/tell-stories-webui。

来看其具体实现原理，使用Deepseek自动分析剧本，分派演员、台词和情感；使用CosyVoice2来进行配音。也能自行调整台词和情感，自己克隆声音（3s-10s极速克隆）并保存为演员，最终自动生成整个故事的语音和字幕。

参考文献

1、https://openai.com/index/introducing-deep-research

2、https://github.com/jina-ai/node-DeepResearch

（文：老刘说NLP）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

OpenAI深度研究”Deep Research智能体及大模型故事自动分析、配音应用尝试

一、Deep Research的进展及后续演进

二、故事自动分析及配音的大模型应用尝试

参考文献