谷歌发布BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超过10分

近日,谷歌发布了一项高难度基准BIG-Bench Extra Hard(BBEH),旨在评估AI模型的高阶推理能力。该基准包含了23个任务,并将每个任务替换为更难的任务,覆盖更多方面的技能需求。如o3-mini (high)得分为44.8分不及格,而其它模型得分不超过10分。

谷歌发布最强「科研辅助神器」!能帮你提新idea,三大真实场景实证

新智元报道
编辑:LRS
谷歌、斯坦福大学等机构开发的AI co-scientist系统,基于Gemini 2.0开发,能生成新的研究假设和实验方案,并通过自我改进提升结果质量。该系统在生物医学应用中成功预测药物再利用方向、提出新治疗靶点并解释抗菌耐药机制。

打破纪录!谷歌全网扒1000亿图像文本对,ViT大佬坐镇:数据Scaling潜力依旧

谷歌推出WebLI-100B数据集,包含1000亿图像-文本对,显著提升多模态模型的文化多样性和多语言能力。研究发现,虽然CLIP等模型过滤筛选数据的过程可能降低模型的多元性,但更大规模的数据有助于改善模型在文化多样性和语言处理方面的表现。

AI意识更进一步!谷歌DeepMind等:LLM不仅能感受痛苦,还能趋利避害

谷歌团队和LSE的研究表明,大语言模型在面对选择时能够权衡痛苦与快乐,这可能是实现’有意识AI’的第一步。该研究通过游戏测试发现,LLM能够在不同疼痛程度下做出权衡选择,类似于人类的本能行为。