评估体系归档

AI实力榜大洗牌！OpenAI谷歌强势领跑，Anthropic节节败退

上午8时 2025/05/17 作者新智元

4o称霸文本生成，谷歌的Gemini 2.5 Pro领跑推理，Kling在视频领域异军突起，企业如何

下午4时 2025/03/12 作者量子位

来自网易有道的14B翻译小模型，测试达行业第一，翻译质量超越一众国内外主流通用大模型。
它就是子曰

上午8时 2025/02/26 作者 NLP工程化

本文提出MLGym框架和基准，评估前沿LLM在AI研究任务上的表现，并强调构建和完善评估体系的重要性。