Pixel Reasoner:滑铁卢等高校联合打造的视觉语言模型,用好奇心驱动的强化学习解锁视觉推理新高度!

Pixel Reasoner 是一款基于像素空间推理增强的视觉语言模型,通过直接操作视觉输入提升对视觉细节的捕捉能力。它结合指令调优和好奇心驱动的强化学习,在多个视觉推理基准测试中表现出色。

首个多模态专用慢思考框架!超GPT-o1近7个百分点,强化学习教会VLM「三思而后行」

研究团队提出VL-Rethinker模型,通过优势样本回放和强制反思技术解决多模态推理中的优势消失和反思惰性问题。该模型在多个数学和科学任务上超过GPT-o1,并显著提升Qwen2.5-VL-72B在MathVista和MathVerse上的性能。

港科大Apple新研究:Tokens使用量减少,模型推理还更强了

Laser团队提出的新方法提升了大模型的推理效率与准确性,通过统一视角看待不同奖励设计、基于目标长度和阶跃函数的奖励机制以及动态且带有难度感知的目标调整,实现了在减少Tokens使用量的同时保持或提升准确率。

MoCha:对话角色视频生成神器,开启虚拟创作新时代!

最近Meta与滑铁卢大学联合开发的MoCha模型在对话角色视频生成方面取得了重大突破,能够根据文本或语音输入生成带有同步语音和自然动作的完整角色动画。其创新的技术架构和训练策略使得角色的嘴型能够更加精准地匹配语音内容,增强了动画的真实感和自然度。

7B小模型写好学术论文,新框架告别AI引用幻觉,实测100%学生认可引用质量

学术研究团队提出了一种名为 ScholarCopilot 的智能大模型框架,专门用于精准生成带有准确引用的学术文本。ScholarCopilot 采用动态机制,在生成过程中实时检索并插入文献引用,提高了引用准确性与相关性。

长视频理解新突破!Mamba混合架构让显存消耗腰斩,处理10万视频token不费力

滑铁卢大学陈文虎团队提出Mamba-Transformer混合模型Vamba,通过改进模型架构设计提升视频理解效率。相比传统方法,Vamba在同等硬件条件下可处理的视频帧数提升4倍,内存消耗降低50%以上,并实现单步训练速度翻倍。

AI版《黑客帝国》:无限生成逼真视频,3A画质,还能实时交互

首个AI基础世界模拟器The Matrix问世,可以生成无限长、高保真720p真实场景视频,并实现实时交互。该模型由华人团队打造,通过游戏数据和现实世界数据训练而成,支持零样本泛化能力。