谷歌再次创造历史:Gemini 2.5 Pro 通关《宝可梦:蓝》!

谷歌Gemini 2.5 Pro模型成功通关经典游戏《宝可梦:蓝》。软件工程师Joel Z搭建系统连接模拟器,通过分析内存信息自主决策玩游戏。项目强调不是基准测试,而是展示不同AI的思考方式差异。

北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?

北大联合人工智能研究院等推出全新物理评测基准PHYBench,包含500道高质量物理题目,旨在评估大模型在物理感知与推理方面的表现,并通过创新的EED评分机制揭示前沿模型与人类专家之间的差距。

谷歌 Gemini 2.5 Pro 成首款能理解 PDF 布局的 AI 模型了

近日,谷歌Gemini 2.5 Pro在PDF文档解析方面取得突破,能够全面理解其布局,引发人机协作模式和生产关系变革。这将催生新型出版、教育和司法系统应用,但也带来格式依赖风险、视觉霸权隐患及元数据黑洞等问题。

5分钟直出46页论文!谷歌Deep Research完爆OpenAI,最强Gemini 2.5加持

谷歌Deep Research搭载Gemini 2.5 Pro模型升级,显著提升分析、推理和报告生成能力。仅需19.99美元即可体验新功能。4分钟内完成46页学术论文和10分钟播客的转换。性能超OpenAI DR40%,价格仅为其十分之一。

我测试了所有顶级的大模型在前端开发中的表现,其中一个模型表现尤为突出

本周,多个顶级语言模型被测试用于生成前端开发的优秀页面。最终结果显示,DeepSeek V3-0324的表现最为出色,虽然Claude 3.7 Sonnet在代码质量方面表现出色,但DeepSeek V3-0324在全面性方面更胜一筹。