68页论文再锤大模型竞技场!Llama4发布前私下测试27个版本,只取最佳成绩
大模型竞技场存在系统问题,包括厂商私下测试多个模型版本、数据访问不平等和排名变化快速。研究团队指出,这可能导致排行榜结果失真,并建议改进策略以提高其可信度。
大模型竞技场存在系统问题,包括厂商私下测试多个模型版本、数据访问不平等和排名变化快速。研究团队指出,这可能导致排行榜结果失真,并建议改进策略以提高其可信度。
开源AI研究者质疑Chatbot Arena排行榜,指存在暗箱操作和数据获取不平等现象。研究发现大公司享有未公开的测试特权,并从多个变体中挑选表现最佳版本发布,导致排名失真。研究还指出数据分配极不均衡,对开放模型支持不足。这些行为可能误导AI社区,需进行改革以恢复公平性和可信度。
Google 发布的 Gemma 3 是一款轻量级的大语言模型,支持多模态输入、长上下文和多种语言。Gemma 3 在性能与规模之间取得了良好平衡,并且可以在普通笔记本电脑上流畅运行,为用户提供了私密且低成本的 AI 解决方案。
埃隆·马斯克旗下xAI公司发布Grok 3大模型,性能超越GPT-4。该模型依托20万块H100 GPU数据中心构建,具备DeepSearch信息检索功能、太空轨道计算系统及AI自主开发游戏等能力,引发市场轰动。
Grok3发布会来袭,马斯克宣布其推理能力超越OpenAI。主要分为Grok3和Reasoning两个部分,前者在数学、科学及代码领域表现突出,而后者则在推理方面优于其他模型。此外还推出了Agent工具DeepResearch。马斯克表示X上的Premium用户最早可体验Grok3及其相关功能。
阿里云Qwen2.5-Max在最新排行榜上位列全球第七,并在数学和编程等领域表现出色。其功能强大且适应能力强,不仅继承了DeepSeek的通用能力优势,还通过垂直领域深耕开辟出差异化赛道。模型采用MoE架构及超大规模数据预训练等技术优化提升性能。
谷歌发布Gemini 2.0 Flash Thinking新版本,引入1M长上下文窗口,在Chatbot Arena中再次夺冠。其亮点包括强大的多模态理解和流畅的对话过程,展示了模型在多个领域的强大能力。
谷歌发布的新模型Gemini 2.0 Flash Thinking能够在1分钟左右明确展示其思考过程并解决复杂的数学和编程问题,表现出色但有时也会犯错。
Chatbot Arena已成为全球最受瞩目的AI系统评测平台,吸引超过170个模型参赛。最新版本的Gemini发布并取得佳绩,引发科技巨头和初创公司争夺榜首。项目采用用户评分的方式进行对比,受到广泛关注。