开源
盲测击败了ElevenLabs的一款TTS:Chatterbox
Resemble AI 推出免费开源 TTS 模型 Chatterbox,在盲测中击败 ElevenLabs,具备情感控制能力,并支持语音克隆和风格定制。
K8S集群化部署RAGFlow文档
RAGFlow支持通过Kubernetes (K8s)集群化部署,包括主应用、文档引擎(可选)、MinIO、MySQL和Redis等组件,从v0.15.0版本开始提供。
DeepSeek 发布DeepSeek R1-0528
DeepSeek发布R1-0528,显著提升代码生成能力,推理速度和质量提高,性能接近OpenAI的o3等前沿模型,在数学、编程和复杂任务上表现出色。
腾讯混元开源新作!超强的音频驱动数字人生成模型,支持多角色、多风格及口型与表情同步!
腾讯混元与腾讯音乐联合开源的数字人音频驱动模型HunyuanVideo-Avatar,支持单或多角色对话和多种图像风格生成。通过一张人物图片和一段音频(最长14秒),生成高保真语音驱动动画,并引入了三项关键创新。
PaddleOCR 3.0发布:OCR精度跃升13%,支持多语种、手写体与高精度文档解析
PaddleOCR 3.0发布全面适配飞桨框架,提升文字识别精度并新增国产硬件支持。PP-StructureV3在文档解析方面表现突出,精度和专精能力领先众多方案。PaddleOCR系列解决方案为AI大模型文档处理提供了强有力的支持。
腾讯开源多模态扩散Transformer模型HunyuanVideo-Avatar,DeepSeek开源R1最新版本性能接近O3
HunyuanVideo-Avatar生成多角色对话视频;Paper2Poster自动生成科研海报并评估其质量;Chatterbox TTS提供情感控制的TTS模型;日本语文章解析器支持文本分析、OCR和语音朗读功能;syftr优化代理工作流程以达到准确性和成本之间的平衡。
CoGenAV 的核心理念是让 AI 模型也实现“音画同步”的深度理解
CoGenAV 框架结合 ResNet 3D CNN 和 Transformer 编码器提取音视频特征,并通过对比生成同步训练提升模型理解能力,实现‘听清+看懂’多模态理解。