谷歌发布BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超过10分
近日,谷歌发布了一项高难度基准BIG-Bench Extra Hard(BBEH),旨在评估AI模型的高阶推理能力。该基准包含了23个任务,并将每个任务替换为更难的任务,覆盖更多方面的技能需求。如o3-mini (high)得分为44.8分不及格,而其它模型得分不超过10分。
近日,谷歌发布了一项高难度基准BIG-Bench Extra Hard(BBEH),旨在评估AI模型的高阶推理能力。该基准包含了23个任务,并将每个任务替换为更难的任务,覆盖更多方面的技能需求。如o3-mini (high)得分为44.8分不及格,而其它模型得分不超过10分。
新智元报道
编辑:LRS
谷歌、斯坦福大学等机构开发的AI co-scientist系统,基于Gemini 2.0开发,能生成新的研究假设和实验方案,并通过自我改进提升结果质量。该系统在生物医学应用中成功预测药物再利用方向、提出新治疗靶点并解释抗菌耐药机制。
Google Fellow吴永辉博士离职谷歌加入字节跳动,负责AI基础研究。他曾主导神经机器翻译、RankBrain等项目,目前担任字节大模型团队Seed基础研究负责人。
字节跳动大模型团队再添强将。Google Fellow吴永辉加盟,加入Seed基础研究负责人职位。他曾是谷歌神经机器翻译项目及Rank Brain项目的贡献者,并参与了谷歌大模型Gemini的研发工作。
知情人士透露,谷歌前员工吴永辉博士已加入字节跳动,担任大模型团队Seed基础研究负责人。吴永辉希望在字节跳动进行长期、基础的研究工作。
谷歌推出WebLI-100B数据集,包含1000亿图像-文本对,显著提升多模态模型的文化多样性和多语言能力。研究发现,虽然CLIP等模型过滤筛选数据的过程可能降低模型的多元性,但更大规模的数据有助于改善模型在文化多样性和语言处理方面的表现。
谷歌团队和LSE的研究表明,大语言模型在面对选择时能够权衡痛苦与快乐,这可能是实现’有意识AI’的第一步。该研究通过游戏测试发现,LLM能够在不同疼痛程度下做出权衡选择,类似于人类的本能行为。