OpenAI 突然公开 o3-mini 思维链!首秀遭质疑,实测对比 DeepSeek R1,差距太明显
OpenAI 公开了其最新模型 O3-mini 系列的新功能,用户现在可以看到模型在解答井字棋问题过程中的详细推理步骤。但 OpenAI 仍保留了部分处理步骤来确保安全性与透明度平衡。
OpenAI 公开了其最新模型 O3-mini 系列的新功能,用户现在可以看到模型在解答井字棋问题过程中的详细推理步骤。但 OpenAI 仍保留了部分处理步骤来确保安全性与透明度平衡。
OpenAI公开了o3-mini的思维链功能,但后续发现并非原始CoT。OpenAI研究员表示,他们正在努力整理原始的CoT并提供翻译,以保持内容的忠实度。
OpenAI为ChatGPT上线了展示详细思维链内容的更新,但其展示的内容是经过总结和可能错误的版本。相比而言,DeepSeek可以展示完整的思维过程,并且在某些情况下能提供更好的用户体验。
开源派掌门人Emad Mostaque批评DeepSeek依赖OpenAI蒸馏技术,并指出其R1-Zero模型通过生成数据自我提升。他质疑OpenAI数据影响,认为DeepSeek在思维链方面优于闭源竞争对手。这场争论反映了开源生态与闭源巨头的权力争夺和AI进化路径的分歧。
研究发现当前多模态大模型在空间认知方面与人类相比仍有显著差距。使用VSI-Bench基准测试集评估15种各方面性能,表现最好的模型Gemini-1.5 Pro平均准确率仅为48.8%,而人类则达到79%。论文详细分析了模型的思维过程,指出语言和视觉层面都大量错误源于空间推理能力不足。