字节开源了一款多主体视频模型!掩码黑科技解锁多主体丝滑控制!

字节跳动MAGREF项目通过掩码引导机制实现了连贯多主体视频生成,支持单人、多人及人物+物品组合。该框架采用像素级通道拼接和区域感知动态掩码技术,生成自然流畅的多主体视频。

21.7K 标星的开源TTS!FishAudio开源情感语音核弹:200万小时炼成“声优AI”!

FishAudio团队发布了全新的OpenAudio S1语音模型,在TTS-Arena榜单上荣登第一名。该模型基于200万小时音频数据训练,支持50+情感标记和多种语言,提供了旗舰版S1(4B参数)和开源版S1-mini(0.5B参数)。

告别天价API账单!开源Chatterbox语音服务器上线,隐私与效率双赢!

Chatterbox-TTS-Server 是一款基于Resemble AI的TTS模型的开源自托管语音合成服务器,提供Web UI、声音克隆、长文本处理等功能,并支持GPU加速和Docker部署。它适用于网站文章朗读、播客生成等场景。

轻量级语音模型Vui开源,支持本地部署,笑声停顿全拟真,4万小时练出人类对话感!

近日,Fluxions-AI团队开源了一款轻量级设备端语音对话模型Vui,能够生成流畅且逼真的自然对话,并模拟语气词、笑声和犹豫等非语言元素,适用于智能助手、播客生成及客服AI等多种场景。

3B小模型吊打72B巨头!轻量级文档解析OCR,性能超Gemini,高效且精准!

近日,Yuliang-Liu团队发布了一款名为MonkeyOCR的轻量级文档解析模型,它以结构-识别-关系(SRR)三元组范式实现了高效精准的文档解析,在英文文档解析任务中超越了Gemini 2.5 Pro和Qwen2.5-VL-72B。其处理速度达每秒0.84页,支持中英文文档处理,并能生成Markdown或JSON结构化数据,适用于企业文档处理、学术研究等场景。

解锁文档处理新高度!这个开源神器支持OCR+机器学习,超丰富的API接口,效率翻倍!

Dedoc是一款ISPRAS团队开源的文档提取与转换工具,支持多格式文档处理,包括Office、PDF和扫描件等,并能智能提取表格、文本格式和逻辑结构。其核心功能亮点涵盖文档逻辑结构提取、复杂表格解析以及OCR扫描件处理。