推理大模型1年内就会撞墙,性能无法再扩展几个数量级 FrontierMath团队最新研究
Epoch AI指出,若推理模型保持每3-5个月以10倍速度增长,则训练所需的算力可能大幅收敛。当前最前沿的推理模型如o1和o3的推理训练规模还未见顶,但有可能在一到两年内达到上限。
Epoch AI指出,若推理模型保持每3-5个月以10倍速度增长,则训练所需的算力可能大幅收敛。当前最前沿的推理模型如o1和o3的推理训练规模还未见顶,但有可能在一到两年内达到上限。
科技巨头纷纷推出深度推理模型。微软面向所有Copilot用户免费提供语音和深度思考功能,并宣布由OpenAI的o1模型支持。近期多家AI企业如OpenAI、谷歌等也发布了新的深度推理/深度思考模型。
OpenAI CEO Altman透露公司即将推出整合o3和其他技术的GPT-5模型,并应用于ChatGPT和API服务。同时,O3不再独立推出,未来的模型将根据用户输入自动选择调用。
Kimi 团队发布了最新的多模态推理大模型 Kimi k1.5,其性能与正式版 o1 最为接近。通过 Long2Short 技术,该模型能够在有限的 token 预算下实现高性能推理,提升用户体验和资源利用效率。
两家企业DeepSeek和Kimi发布推理模型,展示了不同的技术路线。Kimi采用了长上下文扩展、在线镜像下降等策略提升性能,并创新性地提出了Long2Short训练方案。对比其他模型,其在多模态能力和推理精度上表现出色。
OpenAI的研究人员暗示已达到递归自我改进的临界点,可能在不久后发布O4或O5模型接管AI研发。目前发布的O3模型表现出色,并且已经开始自举训练。专家认为这标志着AGI(通用人工智能)已经无悬念地接近实现。
阶跃星辰发布的Step Reasoner mini是首个推理模型,擅长逻辑推理、代码和数学问题,并能进行文学创作。该模型通过强化学习训练,实现文理兼修。它在AIME 2024和Math500测试中均表现出色,且具有较好的泛化性。
木易在‘AI信息Gap’公众号分享了Perplexity近期添加o1模型作为搜索底层模型的消息,强调o1是推理模型,拥有8个高级模型支持,并指出其昂贵的API费用限制了每日使用次数。通过2、3、5、12和四则运算测试展示了o1的强大能力。
在2024年12月,OpenAI发布了满血版o1,谷歌发布多个重要模型,DeepSeek发布升级版本。LMSYS和LiveBench排行显示,OpenAI o1、谷歌Gemini-Exp-1206、谷歌 Gemini-2.0-Flash-Thinking、DeepSeek V3分别位列排行榜前几名。