HLCE 归档 - 每时AI

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率，华为诺亚提出代码HLCE终极基准

2025年7月5日16时作者机器之心

本文介绍了华为诺亚实验室发布的’人类最后的编程考试'(HLCE)基准测试，旨在评估当前大语言模型（LLM）在复杂编程任务上的表现。结果显示，即使是顶尖的大模型，在HLCE上也面临巨大挑战，单次尝试成功率仅15.85%或11.4%，与其它基准相比显著降低。研究发现LLM擅长推理但对交互式问题不足，且存在自我认知能力不强的问题。总体而言，尽管在测试时扩展规律上表现良好，LLM仍需进一步优化。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31