给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 AAAI 2025
BPO-AVASR通过双焦点偏好优化方法提升了视觉和音频结合的语音识别性能,解决了噪声、口语化表达及同音词混淆等问题,在多个基准数据集上取得了最优表现。
BPO-AVASR通过双焦点偏好优化方法提升了视觉和音频结合的语音识别性能,解决了噪声、口语化表达及同音词混淆等问题,在多个基准数据集上取得了最优表现。
Datawhale发布《大语言模型》中文书籍,系统介绍大语言模型技术。作者团队包括赵鑫、李军毅、周昆等专家,引用次数已突破4000次。该书注重为读者提供系统性的知识讲解,内容涵盖预训练、微调、对齐等多种基础内容。
清华、中国人民大学与蚂蚁集团联合发布LLaDA模型,采用扩散方式打破自回归垄断,性能媲美Llama 3 8B。该模型颠覆大语言模型认知,采用掩码扩散模型训练范式,实现全局视角生成;在数学问题解答、多轮对话、代码生成等方面表现出色。相关资源包括论文和项目主页。
优质的AI教学资源稀缺。清华NLP实验室等机构联合推出大模型公开课及教材《大语言模型》,覆盖全流程技术并配有配套代码与工具包,适合各类读者学习。新年之际发放十本电子版《大语言模型》作为福利。
《大语言模型》中文书籍近日正式出版上线,系统介绍大语言模型技术,内容涵盖预训练、微调与对齐等多方面知识。该书由中国人民大学师生编写,编著者在大模型领域具有丰富研究经验。本书全面解读大语言模型训练与使用全流程,提供丰富的代码实战和配套工具包LLMBox与YuLan大模型,适合初学者和专业人士阅读。
阿里巴巴人大开源的mPLUG-DocOwl 1.5无需OCR理解文档、网页、表格和图表,支持结构感知文档解析、表格转Markdown、图表转Markdown等。
中国人民大学高瓴人工智能学院孙浩团队与北京航空航天大学杨立军教授团队合作在Nature Machine Intelligence发表论文,提出S3GM算法,从稀疏传感器数据重建复杂物理场,有效预测燃烧、流体流动和气候等系统动态,为动力系统建模提供新思路。