今天是2025年02月03日,星期一,江西,天气阴。
今天是大年初六,各位应该陆续返程了,大家归途一路顺风。
我们今天继续看一些有趣的事情,看看Deep Research的进展及后续演进以及故事自动分析及配音的大模型应用尝试。
专题化,体系化,会有更多深度思考。大家一起加油。
一、Deep Research的进展及后续演进
来看产业进展,OpenAI今天发布Deep Research(https://openai.com/index/introducing-deep-research/),一个Agent,目标是为在金融、科学、政策和工程等领域从事密集型知识工作的人设计,这类工作需要全面、精确且可靠的调研。对于那些在购买通常需要仔细研究的商品(如汽车、家电和家具)时需要高度个性化建议的精明消费者来说,它同样很有用。每个输出都经过完整记录,附有清晰的引用和对其思考过程的总结,方便用户参考和验证信息。尤其擅长寻找那些需要浏览众多网站才能获得的非直观、小众信息。
在实现思路上,如其官方介绍,Deep Research通过端到端强化学习在多个领域的复杂浏览和推理任务中进行训练。通过这种训练,学会了规划并执行多步骤的轨迹,以找到其所需的数据,并在必要时进行回溯和对实时信息做出反应。此外,该模型能够浏览用户上传的文件,使用Python工具绘制并迭代图形,将其生成的图形和网站上的图像嵌入到其回答中,并引用其来源中的具体句子或段落。
也就是说,在具体使用上,只需给出提示,会通过查找、分析并综合数百个在线来源,生成一份综合报告,由即将推出的OpenAI o3模型的一个版本提供支持,该版本经过优化,专门用于网页浏览和数据分析。它利用推理能力搜索、解释和分析互联网上的大量文本、图像和PDF文件,并根据遇到的信息灵活调整。
但是,Deep Research完成工作可能需要5到30分钟,它会花时间深入网络进行研究。
当然,报告其实在真实场景下是富文本,包括图像、引用、段落等信息,所以,其后续还将在这些报告中添加嵌入图像、数据可视化和其他分析输出,以提供更多的清晰度和上下文。
有趣的是,Jina AI也快速了一个Deep Research的开源实现版:node-DeepResearch(https://github.com/jina-ai/node-DeepResearch),该项目使用gemini进行llm操作,brave用于搜索,jina reader用于阅读网页。实现的原理很简单,就是在一个循环中进行搜索、阅读和推理,直到找到答案。
从技术流程的角度来看,其实现流程如下;

具象化的看,其示例中所述,
Query: “who is the biggest? cohere, jina ai, voyage?”,一共包括13steps。
当然,这个其实又是ResearchAgent,所以也会有一些看起来很类似的工作(放到科研领域):
1、《ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models》,https://arxiv.org/abs/2404.07738 ;
2、《PaSa: An LLM Agent for Comprehensive Academic Paper Search》,https://arxiv.org/pdf/2501.10120v1,https://github.com/bytedance/pasa,https://pasa-agent.ai,https://huggingface.co/papers/2501.10120;
3、《ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models》,https://arxiv.org/pdf/2404.07738.pdf
但仔细一看,又像是AI搜索,例如秘塔搜索。所以,核心还是其中workflow的设计,理解意图,搜索医疗,总结大纲,生成内容,润色内容等。
二、故事自动分析及配音的大模型应用尝试
在这里,我们介绍社区成员的一个工作,假期写了一个自动分析故事并加上情感的配音的WebUI,能够通过简单的点击和选择,就完成一个故事的讲述,现在已经开源,地址在:https://github.com/c4fun/tell-stories-webui。
来看其具体实现原理,使用Deepseek自动分析剧本,分派演员、台词和情感;使用CosyVoice2来进行配音。也能自行调整台词和情感,自己克隆声音(3s-10s极速克隆)并保存为演员,最终自动生成整个故事的语音和字幕。

参考文献
1、https://openai.com/index/introducing-deep-research
2、https://github.com/jina-ai/node-DeepResearch
(文:老刘说NLP)
新技术上上下限,研究AI效率上限