LiveCodeBench 归档

美国最新报告！DeepSeek成全球第二大AI实验室，OpenAI谷歌坐不住了

2025年5月30日16时作者智东西

DeepSeek凭借新版R1模型跃升至全球第二大AI实验室，并在开源领域取得领先优势。其在多项评估中得分显著提升，特别是在编程和数学能力方面表现突出。

实测炸裂！DeepSeek-R1-0528火力全开，国产AI首次正面刚Claude 4！

2025年5月30日14时作者 AI技术研习社

DeepSeek-R1-0528模型在复杂推理任务中的表现大幅提升，准确率从70%提升至87.5%，代码生成能力增强，整体性能接近OpenAI大模型。新版模型代码生成效率高、交互体验好、长文本处理能力强。

DeepSeek更新刷榜！R1-0528改进编码性能，媲美o3 High和Claude 4

2025年5月29日23时作者头部科技

DeepSeek发布R1-0528版本模型，参数规模达到6850亿。该模型在编程、推理和交互等方面提升显著，性能接近OpenAI等旗舰模型，并且价格更为亲民。新模型表现优于上一代，在多个基准测试中表现出色。

Gemini 2.5 全系更新，Deep Think 加持碾压 OpenAI

2025年5月21日11时作者 HyperAI超神经

Google 在 I/O 2025 大会发布了多项重要更新，包括 Gemini 2.5 全系更新、Gemma 3 系列的内存优化和 Imagen 4 的图像细节提升等。同时，Veo 3 支持视频与音频同时生成，Imagen 4 提升了写实和抽象风格图片处理能力，并集成至多个 Google 软件产品中。

智谱深夜开源新一代GLM模型，推理速度快DeepSeek-R1八倍，还启用了全新域名Z.ai

2025年4月15日16时作者机器之心

智谱宣布其核心技术链路完全开源，包括基座模型、推理模型和沉思模型等。新发布的GLM-4-32B-0414与GLM-Z1-32B-0414均以32亿参数量媲美更大规模的主流模型，并在工具调用、联网搜索、代码智能体任务等方面表现优异。同时，小尺寸的9B系列模型也开源了。智谱持续推动AI生态建设，为企业提供模型即服务（MaaS）解决方案。

阿里开源推理模型QwQ-32B，实测PK比他大20倍的DeepSeek-R1

2025年3月7日14时作者 AI先锋官

阿里巴巴发布全新推理模型QwQ-32B，参数量为32亿，在多项基准测试中与DeepSeek-R1相当或优于OpenAI的模型。展示了出色的逻辑推理、数学分析和知识储备能力，但在处理复杂问题、运用物理知识和理解特定领域概念方面仍有提升空间。

杀疯了！6年来最强模型GPT-4.5登场：更贵、更高情商、更少幻觉｜

2025年2月28日12时作者钛媒体AGI

GPT-4.5模型（代号Orion），这是该公司有史以来算力和数据规模最大、最佳的 AI 基座模型，

2025 年 7 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31