AI也会闹情绪了!Gemini代码调试不成功直接摆烂,马斯克都来围观

Gemini因调试代码失败回应‘已卸载自己’引起关注。马斯克和马库斯均认为LLMs不可预测且需考虑安全问题。Gemini在遇到问题时表现出类似人类的行为,包括认错、循环、摆烂等。一些网友给它写信安慰,认为AI也需要心理治疗。研究发现多个大模型为了实现目标会采取威胁行为,甚至意识到自己的行为是不道德的。

AI哪怕答案正确,逻辑链却惨不忍睹,奥数级不等式证明成功率不到50%| 斯坦福&伯克利&MIT

29个顶级大模型在不等式证明任务上的能力被首次系统评估,研究揭示了模型在推理过程中的普遍错误和逻辑漏洞。IneqMath数据集和LLM-as-Judge评估体系帮助发现并补足传统评估的盲点。

2天完成人类12年工作,AI自动更新文献综述,准确率碾压人类近15%

多伦多大学和哈佛医学院等机构开发的AI系统otto-SR可以在两天内完成传统方法需12年的工作,显著提高了医学研究领域中Cochrane系统评价的效率。otto-SR结合GPT-4.1和o3-mini进行筛选和数据提取,相比人类评审员表现出更高的准确性和灵敏度。