自然语言处理
实证:现在的LLM根本不会Reasoning!
MLNLP社区致力于推动国内外自然语言处理领域的学术与行业发展。最新论文指出,热门的大推理模型可能只是在’表演思考’。该论文通过特定谜题揭示了这类模型的问题复杂度上限,并提出了改进方向。
ICML Spotlight 2025丨追求概率质量的帕累托最优:基于广义α-β散度引导的知识蒸馏框架ABKD
本文研究知识蒸馏中FKLD和RKLD的次优表现,提出α-β散度框架ABKD来平衡难度集中与置信集中效应。通过实验验证了ABKD的有效性,并提出了敏感性分析以进一步优化模型性能。
低调升级,实力暴涨!新版 DeepSeek R1,成了 o3 和 Gemini 2.5 的最强平替
DeepSeek R1 推出升级版,推理能力增强、幻觉率下降、支持函数调用,并引入8B小模型辅助教学。新版性能提升显著,已超越开源之王Qwen3。
DeepSeek节前又双叒叕搞事,R1“小版本试更新”代码能力实测堪比Claude 4
DeepSeek官方近日宣布已完成DeepSeek R1模型的小版本试升级,并在HuggingFace上开源了新版本。该模型在代码生成方面提升显著,性能接近OpenAI的模型且超越Claude-4-Sonnet,但推理能力稍有不足。