OpenAI重夺竞技场第一,但这波靠的是4o

OpenAI开发者日新加坡站举行,新版ChatGPT发布。此版本更新了创意写作能力,并且在多项具体能力和综合排名中表现突出。新版本击败Gemini-Exp-1114和Claude 3.5 Sonnet等竞争者,总胜率达到72%以上。OpenAI还透露即将上线的o1满血版及其开源计划引发了网友们的关注与讨论。

真的撞墙?OpenAI 的任务对齐主管:2025年AI会在高阶应用突破,但一般人会感觉停滞

文章讨论了OpenAI的研究人员预计,在接下来的阶段中,人工智能将在大量高度专业化的技术任务上表现出色,这可能让大多数人感觉进展停滞不前。作者推测这种现象类似于智能手机的普及过程,并对Gary Marcus在2026年仍坚持深度学习已触及瓶颈的观点表示怀疑。

对标o1,Kimi放出了最能打的国产模型

国内大模型初创公司月之暗面推出的新一代推理模型Kimi k0-math在数学能力上已实现对标OpenAI o1-mini和o1-preview,包括在中考、高考等基准测试中表现出色。该模型采用了强化学习和思维链推理技术,能够模拟人脑的思考过程,并能有效应对竞赛级别的数学题库。