国产推理模型卷起来了!阶跃星辰Step R-mini推理模型首发实测!
木易介绍了国内推理模型的发展历程和比较,重点讲述了阶跃星辰的Step R-mini模型,并通过具体问题测试了其性能及思考过程,指出了其过度思考、自我否定等问题。
木易介绍了国内推理模型的发展历程和比较,重点讲述了阶跃星辰的Step R-mini模型,并通过具体问题测试了其性能及思考过程,指出了其过度思考、自我否定等问题。
2024年国内大模型已达到GPT-4水平,多模态和推理模型取得进展。周枫预测2025年是应用元年,中小模型将迎来快速发展。他还强调了实时多模态、开源项目的重要性,并指出推理模型仍有缺陷需改进。同时提到了2B市场疲软的情况,建议企业关注中小和行业模型的发展机会。
OpenAI 新模型 o3 在 ARC-AGI 基准测试中取得了显著进步,但仍有部分任务无法解决。o3 能够适应新任务的能力实现了质的飞跃,但仍存在一些局限性。
AI芯片系列B300和GB300发布,算力相比前代提升50%,显存从192GB增加到288GB,并且包含多个GB300的计算单元被评价为解决推理大模型内存限制的问题。
OpenAI在12天直播中推出了新的推理模型o3和o3 Mini,并开放外部安全研究人员进行测试。o3在SWE-Bench Verified测试中的准确率达到71.7%,比前代产品o1高出约20%;数学能力上表现突出,在AIME 2024数学竞赛中得分96.7%。
OpenAI 发布全新桌面版 ChatGPT,支持与30多种应用协作提升写作和编程能力。演示中展示了多款应用的交互功能,包括Git命令生成图表、IDE操作等。同时支持Notes、Notion和Quip等多种应用。