数学归档 - 第2页共2页

DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

下午4时 2024/12/31 作者量子位

国产模型DeepSeek V3在竞技场中表现优异，但在部分逻辑陷阱问题上略逊一筹。量子位进行了实测对比，发现Claude 3.5 Sonnet在理解某些脑筋急转弯和弱智吧问题上更为精准。

下午2时 2024/12/29 作者新智元

OpenAI发布o1 pro，震惊免疫学专家Derya Unutmaz。o1 pro评估论文后揭示深厚见解，涵盖数理化与人文社科领域。

上午10时 2024/12/20 作者 Founder Park

谷歌发布Gemini 2.0 Flash Thinking模型，能在几秒钟内解决复杂问题并展示思考过程。它支持多种数据类型和推理，并能与图像、文本等结合处理。性能超越OpenAI的o1系列。

下午10时 2024/12/16 作者毫河风报

月之暗面发布的视觉思考模型 k1，基于强化学习技术实现了端到端的图像理解与思维链技术，在数学、物理等基础科学学科的基准测试中表现优异。

上午9时 2024/11/28 作者 AIGC开放社区

阿里巴巴开源新模型QwQ-32B，在数学和编程测试中表现出色，但在语言切换和复杂推理方面仍有提升空间。