GPQA Diamond归档

美国最新报告！DeepSeek成全球第二大AI实验室，OpenAI谷歌坐不住了

下午4时 2025/05/30 作者智东西

DeepSeek凭借新版R1模型跃升至全球第二大AI实验室，并在开源领域取得领先优势。其在多项评估中得分显著提升，特别是在编程和数学能力方面表现突出。

最新！Qwen 3 GPQA跑分接近DeepSeek R1：仅用三分之一参数

上午11时 2025/04/30 作者 AI寒武纪

大模型独立分析公司Artificial Analysis对Qwen3进行了最新评估，结果显示其表现优异。特别是235B-A22B版本的Qwen3模型，在开启推理模式下达到了70%的GPQA Diamond得分，接近DeepSeek R1和Gemini 2.5 Flash的表现，相比阿里此前最好的Qwen1.5-32B模型有显著提升。

字节推豆包1.5深度思考模型，PK阿里QWQ-32、Deepseek R1结果如何？

下午2时 2025/04/18 作者 AI先锋官

近日，字节跳动发布豆包1.5深度思考模型，该模型在推理能力、速度和多模态方面实现了突破性升级。其参数量为200B，激活参数仅为20B，具有低延迟（<20ms）的优势。通过多项权威基准测试，该模型在数学推理和编程竞赛方面表现出色，并展示了其对图片的视觉推理能力。

Light-R1-32B之R1复现认识：兼看R1蒸馏模型所用800K数据细节问题

下午2时 2025/03/14 作者老刘说NLP

今天是2025年3月14日，星期五，北京天气晴。Light-R1-32B复现了R1的效果，但限定于数学领域AIME24、AIME25、GPQA Diamond等数据集；同时指出R1蒸馏模型所用800K数据是否来自训练还是由R1生成尚存争议。

2025 年 6 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30