GPT-4.5归档 - 第2页共6页

历史首次！GPT-4.5通过标准图灵测试，靠的竟是”装人设”？

下午11时 2025/04/02 作者 AI寒武纪

UC San Diego团队通过实验验证GPT-4.5不仅通过了图灵测试，其表现甚至超过真人。胜率高达73%，远高于对照组人类对手的50%。研究发现人设提示是关键因素。

下午2时 2025/03/28 作者 AI信息Gap

最近，OpenAI 推出的新模型 GPT-4o 价格高昂且性能升级显著。相比之下，DeepSeek 和谷歌的模型则更加实惠。更新后的 GPT-4o 在性价比、直觉和创造力等方面表现突出，但仍存在编程能力方面的不足。

下午2时 2025/03/26 作者 AI信息Gap

DeepSeek-V3-0324 新模型发布，参数量6850亿。相比前代，在基准测试中表现卓越，尤其在推理能力、编程能力和中文写作方面有显著提升，并且修复了一些问题。

下午11时 2025/03/25 作者量子位

DeepSeek官方发布DeepSeek-V3模型更新技术报告，V3版本参数量约为660B，在数学、代码类评测集成绩超过GPT-4.5，并展示了其在前端开发、中文写作、中文搜索及工具调用等方面的提升。

下午11时 2025/03/24 作者 PaperWeekly

文章介绍了一篇关于对抗攻击的研究成果，该研究提出了一种新的方法M-Attack来提高对大型视觉语言模型的攻击成功率，并成功应用于多个商业模型中。

下午2时 2025/03/22 作者 IT桔子

OpenAI再次指控DeepSeek存在重大风险，并要求美国政府采取行动禁用DeepSeek，同时其他国家如意大利、澳大利亚和韩国也对DeepSeek实施了禁令或限用措施。然而，DeepSeek通过开源模型打破了技术垄断，推动了AI普惠，成为人人可用的AI。

下午2时 2025/03/05 作者 AI信息Gap

用一文记录AI大模型领域风云变幻的一月，LiveBench和LMSYS排行榜对比显示，Claude 3.7 Sonnet-Thinking荣登榜首，GPT-4.5紧随其后。LMSYS StyleCtrl排名中，GPT-4.5和Grok 3表现优异。

下午11时 2025/03/04 作者新智元

PT-4.5竟一度拿下第一？甚至在数学、编程等领域表现优异，这反常的表现让网友们一度质疑：大模型竞技