开源 AI 音视频图文创作神器！一键音视频转文档，支持主流自媒体平台图文风格转换！

在自媒体创作过程中，除了内容质量，效率也是对自媒体人来说较为重要的因素。

如果你还在手动听写视频内容、逐帧截图写笔记？做短视频剪辑、写公众号、小红书笔记总缺灵感和素材整理工具？

那么，AI-Media2Doc 就能帮你一键自动完成！它是一款完全开源、支持本地部署的音视频转图文的 AI 创作工具。

基于 AI 大模型的强大能力，可以一键将音视频转化为小红书、公众号、知识笔记、内容总结或思维导图等多种风格文档。

同以往介绍的AI音视频工具不同的是，AI-Media2Doc 无需再本地安装 FFmpeg 音视频处理工具包。它通过前端 FFmpeg WASM 解析音视频，支持本地部署，任务记录本地保存，兼顾隐私和便捷性。

AI-Media2Doc 支持本地部署，需 Python 环境和前端依赖。

安装步骤

① 克隆项目

git clone https://github.com/hanshuaikang/AI-Media2Doc.git
cd AI-Media2Doc

② 安装Python依赖（后端）

pip install -r backend/requirements.txt

③ 创建 backend/.env，配置大模型

OPENAI_API_KEY=your_openai_api_key
GROK_API_KEY=your_grok_api_key
DEEPSEEK_API_KEY=your_deepseek_api_key

④ 启动FastAPI服务

uvicorn backend.main:app --reload

⑤ 安装前端依赖并启动服务

cd frontend
npm install
npm run serve

最后访问 http://localhost:8080 即可开始使用。

使用方法

可新建任务，上传音视频文件，选择输出风格（小红书、思维导图等），生成图文。

也可以继续二次对话，在右侧界面输入问题（如“视频的主旨是什么？”），AI 基于内容回答。

在当今内容创作日益多元化的时代，视频和音频已成为信息传播的重要载体。

然而，对于自媒体人、学生和知识工作者而言，将这些多媒体内容转化为结构化的文字资料，仍是一项耗时且繁琐的任务。

现在有了 AI-Media2Doc，能够将任意视频或音频内容，一键转换为多种风格的文档。无论是内容总结、知识笔记，还是小红书/公众号风格的文章，甚至是思维导图，它都能轻松胜任。

是一款把“视频内容结构化”做到极致的工具，不只是提取文本，更是从信息转化为知识资产的过程。

AI-Media2Doc 的出现，为内容创作者和知识工作者提供了一个高效、灵活且安全的工具，极大地提升了多媒体内容的处理效率。

GitHub 项目地址：https://github.com/hanshuaikang/AI-Media2Doc

● 一款改变你视频下载体验的神器：MediaGo

● 新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star

● 最新最全 VSCODE 插件推荐（2023版）

● Star 50.3k！超棒的国产远程桌面开源应用火了！

● 超牛的AI物理引擎项目，刚开源不到一天，就飙升到超9K Star！突破物理仿真极限！

（文：开源星探）