一站式多模态研究与播客生成工具

项目简介

这个项目是一个简单的科研和播客生成工作流程，它使用 LangGraph 与谷歌 Gemini 2.5 模型系列的独特功能。它结合了 Gemini 2.5 模型系列的三个实用功能。你可以输入一个科研主题，并且可选地提供一个 YouTube 视频 URL。系统将使用搜索对主题进行研究，分析视频，整合见解，并为你生成带有引用的报告以及关于该主题的短播客。它利用了 Gemini 的一些原生功能。

架构

该系统实现了一个 LangGraph 工作流，包含以下节点：

搜索研究节点：使用 Gemini 的 Google 搜索集成执行网络搜索
分析视频节点：在提供时分析 YouTube 视频（有条件）
创建报告节点：将研究发现综合为一份全面的 markdown 报告
创建播客节点：生成一个双主持人的播客讨论，配有 TTS 音频

工作流

START → search_research → [analyze_video?] → create_report → create_podcast → END

工作流在提供 YouTube URL 时会条件性地包含视频分析，否则将直接进行报告生成。

输出

系统生成：

研究报告：包含执行摘要和来源的全面 markdown 报告
播客脚本：Sarah 博士（专家）和 Mike（采访者）之间的自然对话
音频文件：多说话人语音合成音频文件（ research_podcast_*.wav ）

快速入门

前置条件

Python 3.11+
uv package manager uv 包管理器
Google Gemini API key

安装

克隆并导航到项目：

git clone https://github.com/langchain-ai/multi-modal-researchercd mutli-modal-researcher

2. 设置环境变量：

cp .env.example .env

编辑 .env 并添加您的 Google Gemini API 密钥：

3 运行开发服务器：

# Install uv package managercurl -LsSf https://astral.sh/uv/install.sh | sh# Install dependencies and start the LangGraph serveruvx --refresh --from "langgraph-cli[inmem]" --with-editable . --python 3.11 langgraph dev --allow-blocking

4. 访问应用程序：

LangGraph 将在您的浏览器中打开。

╦  ┌─┐┌┐┌┌─┐╔═╗┬─┐┌─┐┌─┐┬ ┬║  ├─┤││││ ┬║ ╦├┬┘├─┤├─┘├─┤╩═╝┴ ┴┘└┘└─┘╚═╝┴└─┴ ┴┴  ┴ ┴
- 🚀 API: http://127.0.0.1:2024- 🎨 Studio UI: https://smith.langchain.com/studio/?baseUrl=http://127.0.0.1:2024- 📚 API Docs: http://127.0.0.1:2024/docs

5. 传递一个 topic ，可选地传递一个 video_url 。

示例：

topic ：给我概述一下 LLMs 像是一种新型操作系统的想法。
video_url ：https://youtu.be/LCEmiRjPEtQ?si=raeMN2Roy5pESNG2

项目地址

https://github.com/langchain-ai/multi-modal-researcher

扫码加入技术交流群，备注「开发语言-城市-昵称」

（文：GitHubStore）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

项目简介

架构

工作流

输出

系统生成：

快速入门

前置条件

安装

发表评论 取消回复

发表评论取消回复