以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上
谷歌 Gemini 2.5 模型在多领域测试中表现亮眼,但在数学推理和多模态识别方面存在不足。Gemini 2.5 总体正确率达80%,OpenAI两大模型 O3-mini 和 GPT-4.5 错误率高达100%。
谷歌 Gemini 2.5 模型在多领域测试中表现亮眼,但在数学推理和多模态识别方面存在不足。Gemini 2.5 总体正确率达80%,OpenAI两大模型 O3-mini 和 GPT-4.5 错误率高达100%。
CB Insights 发布AI Agent初创企业市场格局图谱,涵盖170余家公司在AI基础设施及应用开发方面的表现,预估2024年投资高达38亿美元,科技巨头均参与研发或工具开发,推动劳动力结构变革和效率提升。
百度宣布秒哒全量上线,支持无代码编程及智能体协作,生成博客、网站等应用。内置多智能体及第三方工具集成,实现3分钟生成+1小时迭代的开发体验。
魔法原子举办「原子双生」2025场景战略发布会,推出人形机器人和四足机器人,并宣布量产计划及落地应用场景。预计今年将有400台人形机器人进入工业、商业场景。人形机器人小麦在商场不同场景展示多样化工作岗位,并展示了与追觅科技合作的具身智能大模型原子万象。
OpenAI与MIT媒体实验室合作研究发现,频繁使用ChatGPT等聊天机器人可能增加孤独感和减少社交时间。研究指出,情感依赖和不当使用行为是主要问题。
上市仅10天,有道Spaceone因热销而首批库存告急。作为一款全面屏答疑笔,它主打小P老师全科答疑、DeepSeek-R1深度推理答疑及AI口语私教功能。自2月上市至今仍持续缺货,官方建议用户保持耐心并理性消费。