实证:现在的LLM根本不会Reasoning!

MLNLP社区致力于推动国内外自然语言处理领域的学术与行业发展。最新论文指出,热门的大推理模型可能只是在’表演思考’。该论文通过特定谜题揭示了这类模型的问题复杂度上限,并提出了改进方向。

ICML Spotlight 2025丨追求概率质量的帕累托最优:基于广义α-β散度引导的知识蒸馏框架ABKD

本文研究知识蒸馏中FKLD和RKLD的次优表现,提出α-β散度框架ABKD来平衡难度集中与置信集中效应。通过实验验证了ABKD的有效性,并提出了敏感性分析以进一步优化模型性能。

DeepSeek节前又双叒叕搞事,R1“小版本试更新”代码能力实测堪比Claude 4

DeepSeek官方近日宣布已完成DeepSeek R1模型的小版本试升级,并在HuggingFace上开源了新版本。该模型在代码生成方面提升显著,性能接近OpenAI的模型且超越Claude-4-Sonnet,但推理能力稍有不足。