深度推理
OCR推理大模型全军覆没?OCR-Reasoning基准揭示多模态大模型推理短板
近期多模态推理模型在数学题、学科题上表现出色,但OCR相关复杂任务的评测标准缺失。填补这一空白的是OCR-Reasoning基准,首次系统性检验了MLLMs在复杂文本图像推理中的能力。
一推理一编程,“AI六小龙”MiniMax、月之暗面同推开源模型
2025年初,’AI六小龙’几乎从舆论场中消失。MiniMax和月之暗面宣布开源新成果,并部署下一步路线。MiniMax-M1在软件工程、上下文处理等任务上表现出色,参数量达4560亿;Kimi-Dev-72B在编程基准测试中表现优异,参数量仅为72B。
迈向推理时代:大型语言模型的长链推理研究综述
MLNLP社区是一个国内外知名的机器学习与自然语言处理社区,旨在促进学术界、产业界和爱好者的交流合作。本文综述了长链推理的研究进展及其关键技术特性,并探讨了其在实际中的应用效果和未来研究方向。
微软变脸OpenAI,模型价值之争压不住了?
微软与OpenAI关于基础模型价值的分歧凸显:微软认为预训练模型将商品化并转向应用层落地,而OpenAI则强调模型领先性的重要性及AGI实现的可能性。双方在投资回报、竞争态势和亚马逊影响等方面存在差异,最终反映了大模型与应用之间价值分配问题。