腾讯推出混元T1正式版了

腾讯自研大模型混元T1正式版上线,数学高考题准确率达90%。它能解出复杂的数学方程,并在金融、医疗等领域发挥巨大作用。该模型展示了AI向真正的逻辑推理领域进军的能力,引发关于技术突破与伦理困境的思考。

上交大等提出MM-Eureka:R1-Zero的「Aha Moment」同样存在于多模态推理

本文介绍了一种新的多模态大规模强化学习框架MM-Eureka,该框架能够稳定地训练包括InternVL2.5-Instruct-8B和InternVL2.5-Pretrained-38B在内的多种大型模型,并使用较少的数据实现了性能的提升。

大模型全军覆没,中科院自动化所推出多图数学推理新基准 CVPR 2025

近日,中国科学院自动化研究所推出多图数学推理全新基准MV-MATH,旨在全面评估MLLM(多模态大语言模型)的数学推理能力。结果发现,包括GPT-4o、QvQ等先进模型在该数据集上的表现均不及格。研究团队指出,现有的多模态数学基准大多局限于单一视觉场景,而MV-MATH则包含多个图像和文本交织而成的复杂多视觉场景,覆盖11个数学领域,并分为三个难度级别。

阿里半夜开源全新推理模型,QwQ-32B比肩DeepSeek-R1满血版

阿里开源发布新推理模型QwQ-32B,参数量为320亿。其性能可媲美6710亿参数的DeepSeek-R1满血版。千问团队通过大规模强化学习提升了模型的推理能力,在数学和编程任务上表现优异,并提供了API使用指南。