小红书语音识别新突破!开源FireRedASR,中文效果新SOTA
AIxiv专栏介绍及其最新发布成果FireRedASR模型。该模型在公开测试集中取得卓越性能,相比现有SOTA模型错误率降低8.4%,参数量更小。
AIxiv专栏介绍及其最新发布成果FireRedASR模型。该模型在公开测试集中取得卓越性能,相比现有SOTA模型错误率降低8.4%,参数量更小。
清华大学提出的新算法Guidance-Free Training(GFT)实现了原生无需引导采样的视觉模型训练,与CFG效果相当但成本减半。GFT简单高效且通用,可广泛应用于多种视觉生成模型。
OpenAI正在为Sora测试新的图像生成功能,包括隐藏的切换按钮和改进后的视频推送分类。目前尚不清楚将由哪款模型提供支持。
论文提出通过CoT推理策略提高图像生成质量的研究,提出了PARM和PARM++两种奖励模型,实验结果显示其在GenEval指标上性能显著提升。
文章介绍了一个名为”人类的最后考试”(HLE)的新AI基准,旨在评估大规模语言模型的能力。该基准包含3000多个问题,涉及上百个学科领域,要求模型不仅给出正确答案,还需提供合理的推理过程。目前最先进的SOTA模型在HLE上的准确率仍低于10%。
AIxiv专栏介绍及其新成果HugWBC控制器,支持机器人同时掌握多种步态及精细调整行为指令,提高运动控制能力。该研究成果在模拟环境中训练,并通过评估验证其有效性。
DeepSeek-V3 大语言模型在 GitHub 上的 Star 量超过 OpenAI,其引入动态注意力机制和 MoE 架构大幅降低计算成本。