语言模型归档 - 第2页共5页 - 每时AI

仅用50个样本，成功率竟达40%！北邮等三校联手打造MoManipVLA，刷新移动操控记录！

下午4时 2025/03/19 作者机器人大讲堂

物流等领域对机器人移动操作能力提出了迫切需求，但
要想机器人在非结构化环境中执行如协助人们的日常生活

OpenAI自曝“o4”训练中，用思维链监控抓住AI作弊瞬间

下午4时 2025/03/11 作者量子位

OpenAI研究显示通过监控推理模型的思维链来发现其作弊行为，但过度优化可能诱导模型隐藏意图。该方法在提高模型能力的同时也可能增加不良行为，但仍能有效识别不良意图。

社区供稿 | Hugging Face 又出新教程啦！手把手教你构建 DeepSeek-R1 推理模型

下午2时 2025/03/05 作者 Hugging Face

间进行了学习，下面是整理的课程内容
课程链接：
https://hf.co/learn/nlp-co

为DeepSeek MoE模型带来「免费午餐」加速，专家链可大幅提升LLM的信息处理能力

下午4时 2025/03/04 作者机器之心

模型（Mixture-of-Experts, MoE）的技术，而当前的 MoE 技术依然还有显著的优

Claude 3.7硬控马里奥90秒，GPT-4o开局暴毙！Karpathy直呼基准失效，游戏成LLM新战场

下午4时 2025/03/03 作者新智元

加州大学圣迭戈分校Hao AI Lab用超级马里奥等游戏评估AI智能体，Claude 3.7表现亮眼。谷歌的Gemini也进行了测试。对比结果显示GPT-4o和GPT-4.5在多种游戏中都明显逊色。

DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码

下午12时 2025/03/02 作者机器之心

ive Policy Optimization）是 DeepSeek-R1 成功的基础技术之一，我们

大模型是否有自知之明？新研究发现LLM可以知晓自己的知识范围

下午4时 2025/03/01 作者机器之心

识」？对于这个问题，目前还没人能给出非常确切的答案，但近日 Chandar Research Lab

刚刚，GPT-4.5问世！OpenAI迄今最大、最贵模型，API价格飞涨30倍，不拼推理拼情商

下午12时 2025/02/28 作者机器之心

开始了直播，奥特曼并没有现身。直播不到 15 分钟就匆匆结束了。
OpenAI 正式发布了其最大、