单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器

中国人民大学等机构的研究者提出MoCa框架,通过双阶段方法将预训练因果VLM转化为双向多模态编码模型。该框架利用持续预训练和异构对比微调提升表示能力和泛化性能,在多种任务上优于现有模型。

更长的推理链反而导致更多幻觉,MLLMs 幻觉解法仅「抄作业」还不够?摘要

本周会员通讯聚焦MLLMs幻觉问题、AI公司运营等议题。研究发现长推理链下MLLMs产生更多幻觉,不同来源的幻觉表现差异大。多模态模型在视觉编码器设计与训练机制存在失衡现象,导致语言主导现象频发。

训练大模型玩《反恐精英》:自带外挂一枪爆头,堪比职业玩家

专注于AIGC领域,介绍微软、百度文心一言等大语言模型的发展和应用。文章提及动视暴雪、斯坦福大学和英伟达研发的游戏大模型MLMOVE,展示其在《反恐精英:全球攻势》中的表现,并对比传统AI的不足之处。

11亿!90后北大教授创纪录,拿下具身智能最大融资,宁德时代领投

银河通用宣布完成11亿元人民币融资,成为具身大模型机器人领域单笔最大融资。公司成立于2023年5月,已累计获得超24亿人民币融资,并推出全球首个预训练端到端具身大模型GraspVLA和GroceryVLA。