SOTA
阿里Qwen版高级语音模式和实时视频聊天模式来了:每天10次试用
阿里发布Qwen2.5-Omni-7B模型,支持实时语音和视频聊天,并开源其技术报告。该模型采用’思考者-说话者’架构实现跨模态处理能力,性能达到同类最佳水平,在多个垂直领域表现出色。
8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源
港科大Harry Yang团队联合Everlyn AI提出LightGen模型,仅需8张GPU训练即可实现近SOTA的高质量图像生成效果。该模型采用数据蒸馏和直接偏好优化策略,显著降低了数据规模与计算资源需求。
另一个来自中国本土”DeepSeek”时刻?全球首个通用人工智能代理发布
通用AI Agent「Manus」发布早期预览版,能自主完成从想法到执行的完整链路任务。它通过演示简历筛选、房产研究及股票分析等实际案例展示了其能力,并且已在多个平台解决真实商业问题。
小红书语音识别新突破!开源FireRedASR,中文效果新SOTA
AIxiv专栏介绍及其最新发布成果FireRedASR模型。该模型在公开测试集中取得卓越性能,相比现有SOTA模型错误率降低8.4%,参数量更小。