Chatbot Arena 归档

68页论文再锤大模型竞技场！Llama4发布前私下测试27个版本，只取最佳成绩

2025年5月2日16时作者量子位

大模型竞技场存在系统问题，包括厂商私下测试多个模型版本、数据访问不平等和排名变化快速。研究团队指出，这可能导致排行榜结果失真，并建议改进策略以提高其可信度。

2025年4月17日23时作者 Founder Park

容，探讨 AI 发展的
「
下半场」。
在 OpenAI o1 模型发布前，我们猜想 LLM 迎来

2025年3月16日8时作者 NLP工程化

Google 发布的 Gemma 3 是一款轻量级的大语言模型，支持多模态输入、长上下文和多种语言。Gemma 3 在性能与规模之间取得了良好平衡，并且可以在普通笔记本电脑上流畅运行，为用户提供了私密且低成本的 AI 解决方案。

2025年2月10日14时作者 AI先锋官

阿里云Qwen2.5-Max在最新排行榜上位列全球第七，并在数学和编程等领域表现出色。其功能强大且适应能力强，不仅继承了DeepSeek的通用能力优势，还通过垂直领域深耕开辟出差异化赛道。模型采用MoE架构及超大规模数据预训练等技术优化提升性能。

2025年1月22日16时作者机器之心

谷歌发布Gemini 2.0 Flash Thinking新版本，引入1M长上下文窗口，在Chatbot Arena中再次夺冠。其亮点包括强大的多模态理解和流畅的对话过程，展示了模型在多个领域的强大能力。

2024年12月20日14时作者机器之心

谷歌发布的新模型Gemini 2.0 Flash Thinking能够在1分钟左右明确展示其思考过程并解决复杂的数学和编程问题，表现出色但有时也会犯错。

2024年12月9日16时作者新智元

Chatbot Arena已成为全球最受瞩目的AI系统评测平台，吸引超过170个模型参赛。最新版本的Gemini发布并取得佳绩，引发科技巨头和初创公司争夺榜首。项目采用用户评分的方式进行对比，受到广泛关注。