2025-05-29 - 第4页共10页

基准测试揭秘大模型“字数危机”：26个模型长文本生成普遍拉胯，最大输出长度过度宣传

下午4时 2025/05/29 作者量子位

过明确的
“长度指令”
？
比如，“写一篇10,000字的长文，详细分析某个议题。”看似简单的要求，

下午4时 2025/05/29 作者 AI前线

DeepSeek 在 Huggingface 平台开源新版本 DeepSeek-R1-0528，主要提升推理精度和代码生成速度。

下午4时 2025/05/29 作者机器之心

。第一作者王希华是人大高瓴博士生（导师：宋睿华），他的研究兴趣主要在多模态生成，之前提出利用音频布局

下午4时 2025/05/29 作者硅星人Pro

也被普通人熟知。
在AI短视频博主那里，这是AI时代的普通人必须要掌握的一项技能，“谁不会用提示词，

下午4时 2025/05/29 作者量子位

UC Berkeley团队提出的新方法Intuitor通过优化模型自身的置信程度来提升大模型的复杂推理能力，无需外部奖励信号或标准答案。与传统强化学习相比，Intuitor能有效减少无效响应并提高模型在数学和代码生成任务中的表现。

下午4时 2025/05/29 作者硅星人Pro

作者在北京最繁华商圈随机询问10位年轻人使用AI助手的习惯，发现大多数人因体验不佳而放弃。豆包推出视频通话功能后，用户可以直接与AI进行视频对话，体验提升显著。文章介绍了多场测试，展示了豆包在室内和室外环境下的表现及其带来的便利性，并强调了交互方式的改变对用户体验的影响。

下午4时 2025/05/29 作者量子位

华为提出S-GRPO方法，通过’串行分组 + 衰减奖励’设计让大模型提前终止思考，提高推理效率60%，生成更精确的答案。

下午4时 2025/05/29 作者 APPSO

」，甚至可以说有点佛系，在微信交流群发了一句：
「DeepSeek R1 模型已完成小版本试升级，欢