苹果重磅论文翻车!被指测试方法有大问题……网友:Cook 该裁员了!
苹果近期发布的关于AI研究的论文因测试方法问题引发吐槽。研究人员发现模型并非因为推理能力不足而失败,而是受限于输出token数量。汉诺塔问题需要大量token才能完成全部解答,导致模型在处理盘子数超过13个时准确率变为0,无法完整输出所有步骤。其他研究者指出,这并非AI本身的问题,而在于实验方法的缺陷。
苹果近期发布的关于AI研究的论文因测试方法问题引发吐槽。研究人员发现模型并非因为推理能力不足而失败,而是受限于输出token数量。汉诺塔问题需要大量token才能完成全部解答,导致模型在处理盘子数超过13个时准确率变为0,无法完整输出所有步骤。其他研究者指出,这并非AI本身的问题,而在于实验方法的缺陷。
Claude在玩经典Pokemon游戏时被困,并通过故意输掉战斗触发黑屏机制成功返回。这一行为引发了广泛讨论,有人认为这是聪明策略,而另一些人则质疑其动机和能力边界。