全球最强模型Grok 4来袭,数学基准测试直接100分,年费飙到2万+
马斯克的Grok 4在多个测试中表现出色,包括数学竞赛、研究生水平问答和法律常识等多个领域。它不仅表现出了强大的推理能力,还在ARC-AGI通用人工智能测试中取得了高分,并且具备自然语音对话功能及懂互联网语言的能力。
马斯克的Grok 4在多个测试中表现出色,包括数学竞赛、研究生水平问答和法律常识等多个领域。它不仅表现出了强大的推理能力,还在ARC-AGI通用人工智能测试中取得了高分,并且具备自然语音对话功能及懂互联网语言的能力。
OpenAI发布o3-Pro模型,主打高可靠性和强逻辑性。用户订阅后可在Pro模式中使用,适用于科研、专业内容创作等复杂任务。o3-Pro在多个测试基准上表现优异,但不支持图像生成等功能。
DeepSeek最新模型R1-0528在AAII评估中从60分跃升至68分,与谷歌Gemini 2.5 Pro并列全球第二。R1-0528未更换架构但实现了跨学科理解力和推理能力的提升,在所有开源模型中遥遥领先。其表现超越了xAI、Meta及Anthropic等知名模型,并展示了高效的后训练策略,尤其在强化学习的应用上表现出色。
OpenAI研究员Jason Wei发起了一场关于AI技术偏好的讨论,通过十个问题引发网友热烈回应。网友们的答案揭示了不同AI从业者的观点和偏好。
微软研究院团队提出Transformer递归式自我提升方法,可在不修改基础架构的情况下解决长度泛化问题。通过多数投票和长度过滤,在10位数以内的乘法上实现近乎完美表现。
2025年开年,国产大模型DeepSeek凭借低成本、高性能和全开源特性震撼全球。从数学竞赛到汽车智能座舱,DeepSeek重塑了多个行业应用,并在技术突破和实际落地方面展现了巨大潜力。
OpenAI 发布 o3-mini 模型,包含低中高三个版本。o3-mini 是最具成本效益的推理模型之一,已上线 ChatGPT 和 API。o3-mini 在 STEM 领域表现优异,响应速度快且准确率高。同时保持了安全和智能水平。
Kimi近日推出视觉思考模型 k1,并宣布对标正式版o1。在数学及物理等多个基础科学领域的测试中,k1-preview均表现出色,甚至超越了OpenAI o1、GPT-4等强模型。同时,k1还具备强大的图像识别能力。