新SoTA方法RM-R1:让reward model对评分说出原因!超越GPT4o

MLNLP社区致力于促进国内外机器学习与自然语言处理的交流合作。近期发表论文提出推理奖励模型ReasRM,通过两阶段训练让小模型学会写评语,并在综合、数学题等测试集中优于GPT-4。该模型支持任务分类和动态奖励机制,已在多个领域展示优势。

大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%

BrowseComp-ZH团队发布新基准测试集,对20多个主流大模型进行中文网页能力测试,结果显示多数模型在中文互联网检索上准确率低于10%,仅有少数能突破20%。研究揭示了模型在中文信息环境中的“死角”,强调了推理能力和多轮策略的重要性,并指出搜索功能的不当使用可能误导模型。

破解合规难题,AI高质量数据集建设正当时

阿里开源的Qwen2.5系列训练数据规模达18万亿 token,推动AI大模型发展。但大规模训练带来幻象问题,RAG技术及工业场景应用以数据为中心成为趋势。国家和行业正积极推进数据标注产业发展规范,提升数据标注行业的合规能力。

速递|全球首个多模态交互3D大模型来了,GPT-4o都没做到的,它做到了

GPT-4和DreamTech的最新多模态大模型Neural4D 2o在3D生成领域取得突破,支持文本、图像及3D输入,实现上下文一致性、高精准局部编辑等功能。Neural4D 2o降低了3D内容创作门槛,有望让3D设计师成为历史。

GPT-4 官宣退役!曾经的最强模型,正式交棒 GPT-4.1、o3、o4 mini!

OpenAI宣布,即将在4月30日下线GPT-4,由更强的GPT-4o全面替代。目前,OpenAI还准备了一大批新模型包括GPT-4.1、GPT-4.1 mini/nano和下一代推理模型o系列等。这些新模型正在筹备中,以应对GPT-4退役后的需求。

AI加速“统治世界”?斯坦福2025年AI指数报告重磅发布,9个信号震撼全球!

2025年斯坦福《AI指数报告》揭示全球AI现状:技术加速进化、政府加码布局、顶尖人才涌向大模型公司,创新集中于少数巨头。尽管存在伦理风险和技术瓶颈,但AI正快速融入各行各业并改变人们的生活方式。