字节开源了一款多主体视频模型!掩码黑科技解锁多主体丝滑控制!
字节跳动MAGREF项目通过掩码引导机制实现了连贯多主体视频生成,支持单人、多人及人物+物品组合。该框架采用像素级通道拼接和区域感知动态掩码技术,生成自然流畅的多主体视频。
字节跳动MAGREF项目通过掩码引导机制实现了连贯多主体视频生成,支持单人、多人及人物+物品组合。该框架采用像素级通道拼接和区域感知动态掩码技术,生成自然流畅的多主体视频。
FishAudio团队发布了全新的OpenAudio S1语音模型,在TTS-Arena榜单上荣登第一名。该模型基于200万小时音频数据训练,支持50+情感标记和多种语言,提供了旗舰版S1(4B参数)和开源版S1-mini(0.5B参数)。
Automa是GitHub上18K Star的开源浏览器Workflow插件,支持AI交互和59个浏览器操作节点。可直接录制工作流实现自动化操作,并提供超过20万用户验证过的现成模板和中文设置选项。
Chatterbox-TTS-Server 是一款基于Resemble AI的TTS模型的开源自托管语音合成服务器,提供Web UI、声音克隆、长文本处理等功能,并支持GPU加速和Docker部署。它适用于网站文章朗读、播客生成等场景。
近日,Fluxions-AI团队开源了一款轻量级设备端语音对话模型Vui,能够生成流畅且逼真的自然对话,并模拟语气词、笑声和犹豫等非语言元素,适用于智能助手、播客生成及客服AI等多种场景。
近日,Yuliang-Liu团队发布了一款名为MonkeyOCR的轻量级文档解析模型,它以结构-识别-关系(SRR)三元组范式实现了高效精准的文档解析,在英文文档解析任务中超越了Gemini 2.5 Pro和Qwen2.5-VL-72B。其处理速度达每秒0.84页,支持中英文文档处理,并能生成Markdown或JSON结构化数据,适用于企业文档处理、学术研究等场景。
微软开源GUI-Actor无坐标视觉定位工具,通过注意力机制直接识别目标区域,支持网页、桌面和移动端UI,性能媲美甚至超越传统方法。
最近发现一款名为TradingAgents的开源多智能体交易系统,通过模拟真实交易团队分工协作和双模型驱动等特性,在金融投资领域显著优于传统模型。
Dedoc是一款ISPRAS团队开源的文档提取与转换工具,支持多格式文档处理,包括Office、PDF和扫描件等,并能智能提取表格、文本格式和逻辑结构。其核心功能亮点涵盖文档逻辑结构提取、复杂表格解析以及OCR扫描件处理。
昨天晚上发布的新版本图片3.0的智能参考功能上线,支持一键修改文字、风格转换和添加元素。展示了多款可爱萌宠海报及换字案例,并提醒透明PNG图片需注意格式问题。