开源星探，作者每时AI

字节开源了一款多主体视频模型！掩码黑科技解锁多主体丝滑控制！

2025-06-15 作者开源星探

字节跳动MAGREF项目通过掩码引导机制实现了连贯多主体视频生成，支持单人、多人及人物+物品组合。该框架采用像素级通道拼接和区域感知动态掩码技术，生成自然流畅的多主体视频。

21.7K 标星的开源TTS！FishAudio开源情感语音核弹：200万小时炼成“声优AI”！

2025-06-14 作者开源星探

FishAudio团队发布了全新的OpenAudio S1语音模型，在TTS-Arena榜单上荣登第一名。该模型基于200万小时音频数据训练，支持50+情感标记和多种语言，提供了旗舰版S1（4B参数）和开源版S1-mini（0.5B参数）。

超20万人使用！最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了～

2025-06-13 作者开源星探

Automa是GitHub上18K Star的开源浏览器Workflow插件，支持AI交互和59个浏览器操作节点。可直接录制工作流实现自动化操作，并提供超过20万用户验证过的现成模板和中文设置选项。

告别天价API账单！开源Chatterbox语音服务器上线，隐私与效率双赢！

2025-06-12 作者开源星探

Chatterbox-TTS-Server 是一款基于Resemble AI的TTS模型的开源自托管语音合成服务器，提供Web UI、声音克隆、长文本处理等功能，并支持GPU加速和Docker部署。它适用于网站文章朗读、播客生成等场景。

轻量级语音模型Vui开源，支持本地部署，笑声停顿全拟真，4万小时练出人类对话感！

2025-06-11 作者开源星探

近日，Fluxions-AI团队开源了一款轻量级设备端语音对话模型Vui，能够生成流畅且逼真的自然对话，并模拟语气词、笑声和犹豫等非语言元素，适用于智能助手、播客生成及客服AI等多种场景。

3B小模型吊打72B巨头！轻量级文档解析OCR，性能超Gemini，高效且精准！

2025-06-10 作者开源星探

近日，Yuliang-Liu团队发布了一款名为MonkeyOCR的轻量级文档解析模型，它以结构-识别-关系（SRR）三元组范式实现了高效精准的文档解析，在英文文档解析任务中超越了Gemini 2.5 Pro和Qwen2.5-VL-72B。其处理速度达每秒0.84页，支持中英文文档处理，并能生成Markdown或JSON结构化数据，适用于企业文档处理、学术研究等场景。