ICML 2025|趣丸研发新型人脸动画技术,声音+指令精准控制表情
本研究提出了一种基于3D隐式空间引导扩散模型的Playmate框架,用于音频驱动肖像动画生成。该方法通过解耦面部属性并引入情感控制模块实现了高质量、可控的情感表达和头部姿态调整。研究成果已在ICML2025收录,并展示了在FID、FVD及唇同步方面的优势。
本研究提出了一种基于3D隐式空间引导扩散模型的Playmate框架,用于音频驱动肖像动画生成。该方法通过解耦面部属性并引入情感控制模块实现了高质量、可控的情感表达和头部姿态调整。研究成果已在ICML2025收录,并展示了在FID、FVD及唇同步方面的优势。
2025年中国系统架构师大会将于5月在北京举行,首日聚焦AI驱动下的技术演进,第二天将举办四大闭门研讨会。参会者有机会聆听前沿讲座、参与讨论并学习实际案例。此外,活动还提供价值4400元的限量门票福利,并邀请读者留言竞猜最感兴趣的应用场景以获得门票。
多邻国推出148门新语言课程,引入生成式AI技术。但用户认为这些功能难以真正提升语言学习效果,问题在于AI提供的是否真的有助于提高体验而非只是提供包装的娱乐。
多智能体系统正在成为复杂任务自动化的关键工具。Rowboat 是一款基于 OpenAI 的 Agents SDK 的 AI 驱动的多Agent构建器,支持自然语言描述需求生成工作流,并提供丰富的 API 和 SDK 支持。
Google Classroom 新增AI功能,允许教师基于特定文本生成测验题目。该工具支持多种筛选条件和技能指定,仅限订阅Google Workspace for Education的用户使用。
FireCrawl 是一款由 Mendable.ai 开发的智能爬虫工具,可将网站内容转换为结构化数据。它能够智能发现并追踪网站内部链接、识别主要内容并进行过滤,确保保留核心信息,并且支持本地部署和集成到 Dify 平台,助力构建高质量 AI 知识库。
Sonible公司推出AI驱动的纯:deess插件,用于去除人声中的齿音和刺耳频率。它通过实时分析输入信号自动识别不同的齿音并计算目标频谱以达到理想状态。用户可以通过简单的旋钮调节抑制强度,同时提供颜色和频谱塑形功能,支持多种格式和授权方式,适用于录音、混音等多种场景。