新智元
8块A100,32B碾压DeepSeek V3、o1-preview!普林斯顿北大首提分层RL推理
座。普林斯顿联手北大提出全新ReasonFlux框架,直接AIME上碾压o1-preiview。
仅
被AI追杀,还要解谜逃生!UCSD等发布LLM测试神器,边玩游戏边评估
新智元报道
编辑:犀牛 好困
GameArena团队开发的《AI Space Escape》游戏通过紧张刺激的密室逃脱方式评估AI模型的推理能力,生成宝贵的游戏数据,并将所有数据公开供进一步研究。该游戏超越了传统的数学和编程基准测试方法。
巴黎峰会欧盟豪掷2000亿加码AI!万斯誓言AI美国优先,Anthropic CEO:AI崛起全新「国度」
国优先」,不接受任何国家的强加监管,拒签70多个国家和组织参与的「AI宣言」。欧洲「背水一战」,斥资