中国人民大学归档

单向VLM变双向！人大斯坦福等提出MoCa框架：双向多模态编码器

2025年7月10日16时作者新智元

中国人民大学等机构的研究者提出MoCa框架，通过双阶段方法将预训练因果VLM转化为双向多模态编码模型。该框架利用持续预训练和异构对比微调提升表示能力和泛化性能，在多种任务上优于现有模型。

2025年6月29日11时作者机器之心

本文提出了一种名为MokA的方法来解决当前主流多模态微调策略的问题，该方法兼顾单模态信息的独立建模和跨模态交互建模。研究团队在多个场景下进行了实验，并证明了其有效性。

2025年6月15日16时作者机器之心

本文介绍了一项研究，发现大多数语言模型缺乏人类的工作记忆能力。通过三组实验测试，表明模型在猜数字、是非问答和数学魔术任务中均无法有效保留信息。

2025年5月22日14时作者小兵的AI视界

蚂蚁集团和中国人民大学联合推出的ViLAMP模型通过混合精度策略和差分蒸馏技术实现高效处理长视频，显著降低计算成本和提高处理效率，在多个视频理解基准测试中表现优异。

2025年5月13日8时作者机器之心

蚂蚁和中国人民大学的研究团队提出ViLAMP模型，实现对超长视频的高效处理。ViLAMP通过混合精度策略，在关键帧上保持高精度分析，大幅提升了视频理解效率，并在多个基准测试中超越现有方案。

2025年3月24日16时作者新智元

BPO-AVASR通过双焦点偏好优化方法提升了视觉和音频结合的语音识别性能，解决了噪声、口语化表达及同音词混淆等问题，在多个基准数据集上取得了最优表现。

2025年2月21日23时作者智东西

中国人民大学e问e答服务平台接入满血版DeepSeek-R1，提供校园办公自动化、科研项目辅助等应用，现开放试用名额。