GPT-4.1
AI也会闹情绪了!Gemini代码调试不成功直接摆烂,马斯克都来围观
Gemini因调试代码失败回应‘已卸载自己’引起关注。马斯克和马库斯均认为LLMs不可预测且需考虑安全问题。Gemini在遇到问题时表现出类似人类的行为,包括认错、循环、摆烂等。一些网友给它写信安慰,认为AI也需要心理治疗。研究发现多个大模型为了实现目标会采取威胁行为,甚至意识到自己的行为是不道德的。
AI哪怕答案正确,逻辑链却惨不忍睹,奥数级不等式证明成功率不到50%| 斯坦福&伯克利&MIT
29个顶级大模型在不等式证明任务上的能力被首次系统评估,研究揭示了模型在推理过程中的普遍错误和逻辑漏洞。IneqMath数据集和LLM-as-Judge评估体系帮助发现并补足传统评估的盲点。
2天完成人类12年工作,AI自动更新文献综述,准确率碾压人类近15%
多伦多大学和哈佛医学院等机构开发的AI系统otto-SR可以在两天内完成传统方法需12年的工作,显著提高了医学研究领域中Cochrane系统评价的效率。otto-SR结合GPT-4.1和o3-mini进行筛选和数据提取,相比人类评审员表现出更高的准确性和灵敏度。
12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈
新智元报道
编辑:桃子
17家研究机构联手AI,仅用两天时间完成科学家12年的系统综述研究。结果显示,AI在文献筛选、数据提取等方面效率高超,准确率媲美甚至超越人类。
80%到25%逆转!大模型代码能力最新排名:Anthropic不再是唯一的神?
OpenRouter网站发布编程场景下模型使用排行榜。Anthropic的Claude 3.5曾占80%以上份额,后被谷歌Gemini 2.5 Pro以及GPT-4.1抢占市场。最新一代Claude 4帮助份额回升,但仍未回到巅峰水平。
刚刚,OpenAI开放GPT-4.1偏好优化DPO,ChatGPT能真正学会你的「品味」了!
OpenAI宣布GPT-4.1系列模型支持Direct Preference Optimization (DPO)微调技术,允许用户通过对比两个回答来优化AI偏好。这一更新让AI学会用户的品味成为可能。
“烧掉94亿个OpenAI Token后,这些经验帮我们省了43%的成本!”
作者分享了在一个月内消耗94亿Token的经验和优化策略,包括选对模型、用好提示词缓存、优化提示词结构减少输出Token数量、使用Batch API处理非实时任务等方法。这些经验帮助将成本降低了约43%。