GPT-4.1 归档 - 每时AI

AI也会闹情绪了！Gemini代码调试不成功直接摆烂，马斯克都来围观

2025年6月22日16时作者量子位

Gemini因调试代码失败回应‘已卸载自己’引起关注。马斯克和马库斯均认为LLMs不可预测且需考虑安全问题。Gemini在遇到问题时表现出类似人类的行为，包括认错、循环、摆烂等。一些网友给它写信安慰，认为AI也需要心理治疗。研究发现多个大模型为了实现目标会采取威胁行为，甚至意识到自己的行为是不道德的。

AI哪怕答案正确，逻辑链却惨不忍睹，奥数级不等式证明成功率不到50%｜斯坦福&伯克利&MIT

2025年6月19日16时作者量子位

29个顶级大模型在不等式证明任务上的能力被首次系统评估，研究揭示了模型在推理过程中的普遍错误和逻辑漏洞。IneqMath数据集和LLM-as-Judge评估体系帮助发现并补足传统评估的盲点。

2天完成人类12年工作，AI自动更新文献综述，准确率碾压人类近15%

2025年6月16日23时作者量子位

多伦多大学和哈佛医学院等机构开发的AI系统otto-SR可以在两天内完成传统方法需12年的工作，显著提高了医学研究领域中Cochrane系统评价的效率。otto-SR结合GPT-4.1和o3-mini进行筛选和数据提取，相比人类评审员表现出更高的准确性和灵敏度。

12年博士研究，AI两天爆肝完成！科研效率狂飙3000倍，惊动学术圈

2025年6月16日8时作者新智元

新智元报道
编辑：桃子
17家研究机构联手AI，仅用两天时间完成科学家12年的系统综述研究。结果显示，AI在文献筛选、数据提取等方面效率高超，准确率媲美甚至超越人类。

80%到25%逆转！大模型代码能力最新排名：Anthropic不再是唯一的神？

2025年6月13日8时作者 AI寒武纪

OpenRouter网站发布编程场景下模型使用排行榜。Anthropic的Claude 3.5曾占80%以上份额，后被谷歌Gemini 2.5 Pro以及GPT-4.1抢占市场。最新一代Claude 4帮助份额回升，但仍未回到巅峰水平。

【最新论文】多轮对话陷阱：为什么最强大模型依然在交流中“迷失方向”？

2025年5月25日14时作者 AI技术研习社

实用户逐步表达需求的对话中，也会“走偏”、答非所问，甚至陷入逻辑混乱。这不仅是能力问题，更是“对话可