DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet对比实测来了
国产模型DeepSeek V3在竞技场中表现优异,但在部分逻辑陷阱问题上略逊一筹。量子位进行了实测对比,发现Claude 3.5 Sonnet在理解某些脑筋急转弯和弱智吧问题上更为精准。
国产模型DeepSeek V3在竞技场中表现优异,但在部分逻辑陷阱问题上略逊一筹。量子位进行了实测对比,发现Claude 3.5 Sonnet在理解某些脑筋急转弯和弱智吧问题上更为精准。
OpenAI发布o1 pro,震惊免疫学专家Derya Unutmaz。o1 pro评估论文后揭示深厚见解,涵盖数理化与人文社科领域。
谷歌发布Gemini 2.0 Flash Thinking模型,能在几秒钟内解决复杂问题并展示思考过程。它支持多种数据类型和推理,并能与图像、文本等结合处理。性能超越OpenAI的o1系列。