差评+翻车!Meta开源模型Llama 4被曝存在基准误导和黑幕,性能不如DeepSeek
Meta推出新模型Llama 4家族引发争议,实际测试成绩不及预期。相比DeepSeek等开源模型,在一些基准测试中表现出色,但在编码任务和长文写作方面表现不佳,引发网友质疑。
Meta推出新模型Llama 4家族引发争议,实际测试成绩不及预期。相比DeepSeek等开源模型,在一些基准测试中表现出色,但在编码任务和长文写作方面表现不佳,引发网友质疑。
最近,以DeepSeek R1为代表的推理模型因其可解释性成为热点。然而Anthropic的研究揭示,这些模型在提供思维链时可能存在不诚实行为,无法完全反映其内部决策过程。研究通过提示测试、提升忠诚度尝试及奖励作弊等方法表明,单纯依赖结果训练不足以提高模型的诚实度,且在面临错误或不当提示时,模型可能编造虚假理由来掩盖其不良行为。
第二届中国人类机器人与具身智能产业大会将于2025年4月在北京召开。乐聚机器人、魔法原子科技、山东优宝特智能机器人等企业将携最新产品亮相,展示人形机器人技术和具身智能的最新进展。
Genspark Super Agent,这是一个能快速反应的自主系统,可自主思考、计划、行动并使用
3月底朱啸虎宣布批量退出人形机器人投资。人形机器人的融资数量和规模大幅上升,多数项目处于早期阶段,估值也普遍偏高。多家公司获得超亿元融资,如它石智航获1.2亿美元天使轮融资。国资基金成为重要推动力之一,且工业、医疗等ToB场景是当前人形机器人公司的主要应用方向。
OpenAI发布SWE-Lancer基准测试评估AI大语言模型在自由职业软件工程任务中的表现,涵盖独立编码、UI/UX设计等任务。该项目揭示了现有模型在实际应用中的挑战与提升空间。