LMSYS 归档 - 每时AI

DeepSeek-V3 + SGLang: 推理优化 (v0.4.3.post2+sgl-kernel:0.0.3.post6)

2025年4月9日14时作者 GiantPandaCV

DeepSeek V3 SGLang 优化
继续我们的DeepSeek V3与SGLang集成的技术

谷歌免费王炸！Gemini 2.5 Pro 推理实测：正确率 100%，零幻觉！

2025年3月29日14时作者 AI信息Gap

谷歌最新发布的推理模型Gemini 2.5 Pro在多项基准测试中表现出色，尤其在数学、推理、多模态和长上下文方面。其性能领先于其他同类模型，并且具有自我验证的能力。实测结果显示，Gemini 2.5 Pro在一系列复杂的逻辑运算题目上均能正确解答，无一错误。

2025年2月LLM最新排名：Grok 3逆袭亮眼，Claude 3.7 Sonnet一鸣惊人！

2025年3月5日14时作者 AI信息Gap

用一文记录AI大模型领域风云变幻的一月，LiveBench和LMSYS排行榜对比显示，Claude 3.7 Sonnet-Thinking荣登榜首，GPT-4.5紧随其后。LMSYS StyleCtrl排名中，GPT-4.5和Grok 3表现优异。

2024年12月LLM最新排名：o1、Gemini双雄争霸，DeepSeek黑马杀入！

2025年1月2日14时作者 AI信息Gap

在2024年12月，OpenAI发布了满血版o1，谷歌发布多个重要模型，DeepSeek发布升级版本。LMSYS和LiveBench排行显示，OpenAI o1、谷歌Gemini-Exp-1206、谷歌 Gemini-2.0-Flash-Thinking、DeepSeek V3分别位列排行榜前几名。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31