HLE测试归档 - 每时AI

OpenAI 发布 o3，谷歌反手祭出 Gemini 2.5 Flash：性价比直接拉满！

下午2时 2025/04/21 作者 AI信息Gap

谷歌新推出Gemini 2.5 Flash，兼具性价比与性能。支持可控思考、多模态能力，并在多个基准测试中表现优异。尽管不如旗舰Pro版本，但为开发者提供了灵活选择的模型。

下午4时 2025/01/25 作者新智元

新智元报道
编辑：KingHZ
AI模型在「人类最后一次考试」中的准确率低于10%，表现自信过度。该项目包含3000个问题，覆盖100多个学科领域。