细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈
香港中文大学MMLab团队发布视觉推理方案MINT-CoT,专为解决数学视觉推理难题设计。该方法通过引入Interleave Token实现细粒度、轻量级的视觉交错CoT推理,显著提升多模态大模型在数学视觉推理任务中的表现。
香港中文大学MMLab团队发布视觉推理方案MINT-CoT,专为解决数学视觉推理难题设计。该方法通过引入Interleave Token实现细粒度、轻量级的视觉交错CoT推理,显著提升多模态大模型在数学视觉推理任务中的表现。
Midjourney发布视频生成模型V7,并引发热议。视频效果逼真,包括跑步、挖蛋糕等场景。物理真实感和细节表现优秀,但音频问题引发讨论。团队表示正在完善并呼吁用户参与评分和提出定价建议。同时,图像生成模型V7也在不断更新中。
一项研究发现大脑衰老并非匀速进行,而是遵循非线性进程,并与胰岛素抵抗增加相关。40-59岁期间酮体干预对稳定大脑网络效果最佳。
首个应用于无文本图数据的类思维链提示学习框架GCoT发布,显著提升节点分类和图分类任务少样本学习表现。通过逐步推断机制、融合生成思维提示及节点特定提示设计,在八个公开数据集上全面超越现有SOTA方法。
腾讯ARC Lab和香港城市大学推出的新Benchmark Video-Holmes,通过复杂视频推理任务测试大模型能力。结果显示所有主流大模型在SR、IMC等指标上均不及格。Video-Holmes规避了现有基准的简单问题限制,强调多线索信息的整合与分析能力。
国产AI豆包成功攻克了看时钟这一大难题,并新增视频通话和联网搜索功能,能够实时报准时间、识别视频内容并提供详细信息,还支持字幕查看。实测显示其在教育、娱乐等方面表现出色,背后的技术优势包括强大的视觉理解能力和理解推理能力等。