LiveBench 归档 - 每时AI

谷歌免费王炸！Gemini 2.5 Pro 推理实测：正确率 100%，零幻觉！

2025年3月29日14时作者 AI信息Gap

谷歌最新发布的推理模型Gemini 2.5 Pro在多项基准测试中表现出色，尤其在数学、推理、多模态和长上下文方面。其性能领先于其他同类模型，并且具有自我验证的能力。实测结果显示，Gemini 2.5 Pro在一系列复杂的逻辑运算题目上均能正确解答，无一错误。

最壕DeepSeek玩家8台Mac跑R1，10万+元凑496GB显存才能跑4bit量化版

2025年1月22日23时作者量子位

DeepSeek-R1模型引发广泛关注，成本从数十万到几百元不等。其表现超越多种榜单和测试任务，包括LiveBench和PlanBench，在公开数据上甚至超过GPT-4和Gemini Flash。同时引发了关于构建新平台强化微调的兴趣。

2024年12月LLM最新排名：o1、Gemini双雄争霸，DeepSeek黑马杀入！

2025年1月2日14时作者 AI信息Gap

在2024年12月，OpenAI发布了满血版o1，谷歌发布多个重要模型，DeepSeek发布升级版本。LMSYS和LiveBench排行显示，OpenAI o1、谷歌Gemini-Exp-1206、谷歌 Gemini-2.0-Flash-Thinking、DeepSeek V3分别位列排行榜前几名。

暗流涌动！DeepSeek 开源 DeepSeek-V3-Base 硬刚 Claude 3.5

2024年12月26日20时作者毫河风报

DeepSeek AI 发布全新开源大模型 DeepSeek-V3-Base，完成率提升48.4%，在多语言编程领域超越Claude 3.5 Sonnet。该模型拥有256位顶尖专家的智库架构，通过MoE混合专家实现「专才专用」，支持上下文长度最高可达8K。

「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini

2024年11月20日21时作者每时AI

国产万亿参数模型Step-2在国际权威榜单LiveBench中杀入全球前五，并超越多项国际主流模型。它在语言生成、知识理解和指令遵循等方面表现出色，引起了外国网友的热议。

2025 年 7 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31