斯坦福 AI 指数报告
这是一份影响力很大的报告,每年一期。
该报告旨在追踪、整合、提炼并可视化与人工智能(AI)相关的各类数据。报告提供无偏见、经过严格审查、来源广泛的数据,帮助政策制定者、研究人员、高管、记者及公众深入了解 AI 领域的复杂性和最新动态。
刚刚,「斯坦福 AI 指数报告 2025」发布,与 2024 报告(全方位解读「斯坦福 2024 AI指数报告」,附原文 pdf 下载)不同的是,该报告中多次、重点提到了中国的 AI 发展,我先摘出来一些:
在 AI 测试中,中国与美国差距显著缩小,如 MMLU 差距仅剩 0.3 个百分点,HumanEval 缩小至 3.7 个百分点。
阿里、字节、腾讯、智谱 AI 和 DeepSeek 组成“国产五英杰”,集体跻身全球主要模型开发机构行列。
清华大学 2023 年发表的高被引论文数量并列全球第一,与 Google 同为 8 篇。
中国 2023 年 AI 授权专利占全球总量的 69.7%,在专利数量和论文产出方面保持全球领先。
2024 年中国企业 AI 使用率同比增长 27 个百分点,为全球增长最快地区,应用水平快速提升。
中国继续引领全球工业机器人部署,2023 年新增安装量达 27.6 万台,占全球总量超一半。
公众对 AI 态度方面,中国 83% 的受访者认为“利大于弊”,为全球最高比例之一。
公众号后台回复「斯坦福2025」
获取本报告完整 PDF
Chapter 1:AI 演进趋势
2024 年,AI 模型在多个能力测试中的表现提升明显:模型规模持续扩大,训练资源需求上升,但推理成本显著下降。企业成为模型开发的主要力量,中国在论文、专利和模型发布方面活跃度持续提高。
要点如下
中美模型差距缩小
到 2024 年底,中美模型在 MMLU、HumanEval 等核心测试中的表现差距明显缩小,例如 MMLU 差距为 0.3 个百分点,HumanEval 为 3.7 个百分点。

「国产五英杰」位列主要模型开发机构
2024 年,阿里巴巴发布 6 个 notable 模型,全球排名第三。字节跳动、DeepSeek、腾讯、智谱 AI 各发布 2 个模型:「国产五英杰」,集体进入世界第一阵营。

清华大学高被引论文数量全球领先
清华大学 2023 年发布 8 篇进入全球前 100 高被引论文,与 Google 并列第一。

多项成绩大幅提升
AI 在 SWE-bench 中,截止到 23 年底,最好成绩是 4.4%,而最新的成绩已经达到了 71.7%。GPQA 和 MMMU 两项新测试的成绩也分别提升了 48.9 和 18.8 个百分点。

企业主导模型开发
2024 年,90% 以上的 知名模型由企业发布。MIT 和 UC Berkeley 等高校也发布了 2 个 notable 模型。

模型规模和训练时间增加
训练 GPT-4o 级别的模型,需约 38B petaFLOP,周期在 90~100 天之间。

小模型取得较高性能
Phi-3-mini 模型参数量为 3.8B,在 MMLU 测试中得分超过 60%,接近 GPT-3.5。

推理成本下降
GPT-3.5 水平模型推理成本从 2022 年的 20美金 /百万 tokens 降至 2024 年的 0.07美金,降幅超过 280 倍。

中国论文与专利数量位居全球前列
2023 年,中国 AI 论文占全球 23.2%,引用占 22.6%;AI 授权专利占全球 69.7%。



可用数据或将趋紧
研究估计,高质量网络训练数据可能在 2026~2032 年间消耗殆尽,行业正关注替代数据来源。

Chapter 2:AI 能力持续提升
2024 年,多项新模型在语言、数学、视频生成等能力上取得进展。领先模型之间的差距缩小,小模型表现提升明显。AI 在推理能力方面仍存在挑战。
要点如下
模型在多个新基准上取得进步
在 2023 年引入的新测试中,AI 表现在一年内快速提升:MMMU 得分提升 18.8 个百分点,GPQA 提升 48.9 个百分点,SWE-bench 提升 67.3 个百分点。
中美模型在测试成绩上接近
2023 年底,中美模型在多个测试中的差距急剧缩小,分别为:
-
• MMLU:17.5% → 0.3% -
• HumanEval:31.6% → 3.7% -
• MMMU:13.5% → 8.1% -
• MATH:24.3% → 1.6%
模型排名差距缩小
在 Chatbot Arena 排行榜上,排名前十的模型 Elo 得分差从 11.9% 降至 5.4%;第一名和第二名之间的差距从 4.9% 降至 0.7%。

引入“Test-time Compute” 提升模型推理能力
在国际数学奥赛选拔题上,OpenAI 推出的 o1,作为推理模型得分达 74.4%,明显高于 GPT-4o 的 9.3%。但 o1 模型在推理时比 GPT-4o 慢 30 倍,成本高 6 倍。

新测试标准持续推出
为应对现有测试趋于饱和,研究者推出了多个更难的新测试集,例如:
-
• Humanity’s Last Exam:最高分仅为 8.8% -
• FrontierMath:AI 正确率约为 2% -
• BigCodeBench:AI 得分为 35.5%,低于人类水平的 97%
文本生成视频技术显著进步
2024 年发布的多个模型在文本生成视频方面质量明显提升,包括 OpenAI 的 SORA、Meta 的 MovieGen、Google DeepMind 的 Veo 2 等。

小模型取得优异表现
2022 年,超过 60% MMLU 得分的最小模型是 PaLM(540B 参数);2024 年,Phi-3-mini(3.8B 参数)也达到了该水平。可理解为同表现下,参数量下降 142 倍。
推理能力仍有限
尽管“思维链”方法改善了模型表现,AI 仍难以稳定解决大型逻辑或规划问题,尤其是在训练范围之外的任务上。
AI 代理在短期任务中表现优于人类
在两小时预算内,AI 代理在 RE-Bench 测试中得分是人类的 4 倍。但在 32 小时任务中,人类得分是 AI 的两倍。AI 在部分任务中效率更高,但仍有时间限制。

Chapter 3:AI 安全体系仍不完善
AI 应用规模持续扩大,但围绕安全性、可信度、偏见与误用的挑战也在增加。行业在相关评估与治理上的行动仍有限,政府与研究界的介入力度逐步增强。
要点如下
RAI 的评估仍未普及
虽然 HELM Safety、AIR-Bench 等新测试被提出,但主要模型开发方仍缺乏统一的 RAI(Responsible AI)评估流程,实践不一致。


AI 相关事故持续上升
2024 年,AI Incidents Database 收录的报告达 233 起,比 2023 年增长 56.4%,为历史新高。
企业识别风险,但应对不足
根据 McKinsey 调查,大部分企业管理者意识到 RAI 风险,但采取行动的不多。管理者对不准确性、法规合规和网络安全的关注度分别为 64%、63%、60%。
政府合作加强
2024 年,多国机构(OECD、欧盟、联合国、非盟等)发布 RAI 治理框架,内容涉及透明性、可解释性和信任等核心原则。
网络训练数据受限比例上升
许多网站设置限制,减少 AI 模型对网页内容的抓取。2024 年,C4 数据集中受限 token 比例从前一年的 5–7% 上升至 20–33%。
C4即:Colossal Clean Crawled Corpus
这是一个大规模的文本数据集,广泛应用于大型语言模型(LLM)的预训练。该数据集来源于 Common Crawl 项目收集的海量公开网页抓取数据。为了提升数据质量以适应模型训练的需求,原始的 Common Crawl 数据经过了大量且细致的清洗与过滤处理,旨在移除例如网站模板代码、导航元素、重复内容以及其他非自然语言文本。


模型透明度有所提升
Foundation Model Transparency Index 显示,主要模型开发者的平均透明度得分从 2023 年 10 月的 37% 上升至 2024 年 5 月的 58%。
针对事实准确性的测试更新
相比 HaluEval、TruthfulQA 等旧方法,2024 年新推出的 FACTS、SimpleQA 和更新版 Hughes Hallucination Evaluation Model 被更多研究者采纳。
AI 选举虚假信息引发关注
2024 年,十余个国家在选举期间出现 AI 相关虚假内容,但实际影响仍不明确,部分预期效果未实现。
模型偏见仍未解决
GPT-4、Claude 3 Sonnet 等模型在性别与种族上仍表现出隐性偏见。例如,女性更常被关联到人文学科,男性更常与领导角色相关联。
学术界对 RAI 研究热度上升
2024 年,RAI 相关论文在主流 AI 会议中的录用量为 1,278 篇,比 2023 年增长 28.8%。自 2019 年以来,该方向保持持续增长。
Chapter 4:AI 投资加速
2024 年,AI 在商业领域的应用加快,全球投资总额创历史新高。生成式 AI 领域尤其受到资本青睐。各行业开始感受到初步的财务影响,但普遍仍处于早期阶段。
要点如下
全球 AI 投资创新高
2024 年,全球 AI 投资达到 2523 亿美元,同比增长 26%。其中,私人投资直接投资增长 44.5%,并购增长 12.1%。
这里的私人投资,包括个人、企业、私募、VC/PE、公司战略投资

生成式 AI 投资持续增长
2024年,在生成式 AI 领域,美国的私人投资在达 339 亿美元,同比增长 18.7%,比 2022 年增长超过 8.5 倍,占全部 AI 投资的 20% 以上。

美国在 AI 投资中领先
2024年,在整个 AI 投资领域,美国的私人投资为 1091 亿美元,是中国(93 亿美元)的近 12 倍,是英国(45 亿美元)的 24 倍。


企业使用 AI 的比例持续上升
2024 年,78% 的企业报告正在使用 AI,比上一年(55%)显著增长。采用生成式 AI 的企业占比也从 33% 提升到 71%。

财务回报仍处于早期阶段
在已有使用的企业中,49% 在服务运营中报告了成本下降,但多数降幅低于 10%。在销售、供应链等环节中,也有 50~70% 的企业报告了营收增长,主要集中在 5% 以下。
区域差异变化显著
中国大陆和港澳台地区的企业 AI 使用率增长了 27 个百分点,增长幅度为全球最高。欧洲增长 23 个百分点。
中国继续引领工业机器人部署
2023 年,中国安装了 27.6 万台工业机器人,是日本的 6 倍、美国的 7.3 倍,占全球总量的 51.1%。
协作型机器人使用增加
2023 年,协作型机器人占新装工业机器人的 10.5%,2017 年该比例为 2.8%。服务型机器人在医疗以外的应用也呈现增长。
AI 使用推动能源结构调整
多家科技公司与核电厂达成合作协议,支持 AI 所需的高能耗运行。包括微软重启美国 Three Mile Island 核反应堆,Google 与 Amazon 也已签署相关协议。
AI 被证明可提升生产力、缩小技能差距
多项研究显示,AI 应用可带来整体生产率提升,尤其有助于低技能岗位员工提高绩效,与高技能员工之间的差距有所缩小。
Chapter 5:AI 在科研领域发力
AI 在生物医药、临床知识、基础科学等领域的应用不断扩大。多个新模型发布,研究效率提高。AI 在特定任务中已具备超越人类的能力,但模型验证、临床集成仍是挑战。
要点如下
蛋白质结构预测模型持续升级
2024 年发布了多款大规模蛋白质序列预测模型,包括 ESM3 和 AlphaFold 3,模型规模增加带来预测精度的进一步提升。
AI 在科研中的作用进一步增强
新工具如 Aviary(用于训练生物任务的 LLM agent)和 FireSat(用于预测森林火灾)在 2024 年得到应用,展示出 AI 在科研支持上的多样化方向。
医学大模型临床知识水平提升
OpenAI 的 o1 模型在 MedQA 基准测试中得分达 96%,比 2023 年领先模型提高 5.8 个百分点,自 2022 年以来总提升达 28.4 个百分点。
部分任务中 AI 表现优于医生
研究发现,GPT-4 在复杂病例诊断中表现优于医生团队。其他研究也表明 AI 在癌症检测、高风险患者识别等任务中具备较高准确性。
AI 辅助的 FDA 批准设备数量增长
截至 2023 年,FDA 批准的 AI 医疗设备总数达 223 个。相比 2015 年(仅 6 个),增长显著。

合成数据在医疗研究中展现潜力
2024 年的研究表明,AI 生成的合成医疗数据可在保障隐私的同时,用于改进健康风险预测和新药发现。
医疗伦理研究热度上升
关于医疗 AI 伦理的论文数量自 2020 年以来增长近四倍,从 288 篇增至 1031 篇,反映该议题在学术界受到重视。
医疗领域出现多种基础模型
2024 年发布了多种专门面向医学场景的大模型,包括:
-
• Med-Gemini(通用多模态) -
• EchoCLIP(超声心动图) -
• VisionFM(眼科) -
• ChexAgent(放射影像)
公共蛋白质数据库持续扩充
自 2021 年以来,UniProt 增长 31%、PDB 增长 23%、AlphaFold 数据库增长 585%,为蛋白质科学研究提供基础支撑。
AI 研究获得诺贝尔奖认可
2024 年,两项 AI 相关研究获诺贝尔奖:
-
• 化学奖授予 AlphaFold 团队,用于蛋白质折叠预测 -
• 物理奖授予神经网络研究者 John Hopfield 与 Geoffrey Hinton
Chapter 6:AI 政策监管加强
全球多个国家在 2024 年加强了 AI 基础设施投资和监管推进。AI 成为政策议程核心议题,国家层面机构与国际组织陆续发布治理框架,AI 安全合作初具体系。
要点如下
美国州级立法活跃
2016 年,全美仅有 1 项州级 AI 法律
2023 年,增至 49 项;
2024 年翻倍至 131 项。
相比之下,联邦级立法仍进展缓慢。
多国推进 AI 基础设施投资
2024 年主要国家的投资承诺包括:
-
• 加拿大:24 亿加元 -
• 中国:475 亿美元(芯片专项基金) -
• 法国:1090 亿欧元 -
• 印度:12.5 亿美元 -
• 沙特阿拉伯:1000 亿美元(Project Transcendence)
AI 相关立法提及数量持续上升
2024 年,75 个国家中,立法文本中提及 AI 的次数增长 21.3%,达 1889 次,是 2016 年的 9 倍。
全球 AI 安全机构体系初步建立
在 2023 年的英国 AI 安全峰会后,首批国家级 AI 安全研究所设立于美国与英国。2024 年的首尔 AI 峰会推动更多机构承诺加入,包括日本、法国、德国、意大利、新加坡、韩国、澳大利亚、加拿大及欧盟。
美国 AI 监管部门数量翻倍
2024 年,美国共有 42 个联邦机构出台 AI 相关规章制度,是 2023 年的两倍。全年共发布 59 项新规,比去年增长超过一倍。
Deepfake 治理扩展至更多州
截止 2024 年,美国有约 24 个州已经就 Deepfake 问题,展开治理工作
Chapter 7:AI 教育关注度提升
全球越来越多国家将 AI 和计算机科学纳入基础教育体系,美国高校相关毕业人数持续增长。但教育资源、师资能力、基础设施等方面的区域差异仍然存在。
要点如下
美国高中计算机课程参与率略有上升
2023–2024 学年,美国高中阶段学生参与计算机科学课程的比例有所提升。但在州别、种族、性别、收入等方面仍存在明显差距。
多数 CS 教师支持教授 AI,但信心不足
美国 81% 的 K–12 计算机科学教师认为 AI 应纳入基础课程体系,但仅不到一半的教师表示自己具备教授 AI 的能力。

全球三分之二国家已引入或计划引入 K–12 CS 教育
相较于 2019 年,这一比例翻倍。其中,非洲与拉丁美洲国家的进展最为显著。但一些非洲国家仍因基础设施(如供电)问题导致教学覆盖不足。
美国 AI 相关硕士毕业生数量大幅增长
2023 年,美国获得 AI 相关硕士学位的毕业生人数相比 2022 年几乎翻倍。虽然本科与博士层面的增长较缓,但整体呈持续上升趋势。
美国仍是 ICT(信息通信技术)人才培养大国
在信息与通信技术毕业生数量上,美国仍居全球领先位置。西班牙、巴西、英国紧随其后。土耳其在性别平衡方面表现最佳。
Chapter 8:公众态度分化明显
2024 年,多数国家的公众对 AI 带来积极影响的期待上升,但对 AI 公司、数据隐私及算法公平性的信任普遍偏低。各国之间的态度差异显著。
要点如下
全球整体 AI 乐观情绪上升
在 26 个国家中,有 18 个国家的受访者更倾向于认为 AI 产品利大于弊。全球总体比例从 2022 年的 52% 上升至 55%。
AI 被认为将在日常生活中发挥重要作用
约三分之二的受访者认为,未来 3–5 年内,AI 将对个人日常生活产生显著影响。相比 2022 年增加了 6 个百分点。
对 AI 公司信任度下降
认为 AI 公司能妥善保护个人数据的受访者比例,从 2023 年的 50% 降至 2024 年的 47%。对算法是否公正的信心也有所下降。

各国对 AI 的态度差异明显
在中国(83%)、印尼(80%)、泰国(77%)等国,绝大多数人认为 AI 利大于弊;而在加拿大(40%)、美国(39%)、荷兰(36%)等国家,这一比例显著偏低。

美国公众对自动驾驶信任度较低
2024 年,美国有 61% 的受访者表示“担心自动驾驶汽车”,仅 13% 表示信任该技术。虽然担忧比例相比 2023 年略有下降,但仍高于 2021 年(54%)。
地方政府对 AI 监管支持度较高
2023 年,美国地方层级的政策制定者中,73.7% 支持加强 AI 监管,高于 2022 年的 55.7%。其中民主党支持率为 79.2%,共和党为 55.5%。
过去对 AI 持怀疑态度的国家也出现转变
例如德国、法国、加拿大、英国、美国的 AI 乐观比例相比 2022 年分别提升了 10%、10%、8%、8%、4%。
大多数人预期 AI 将改变工作方式,但对被取代的担忧较少
全球范围内,60% 的受访者认为 AI 将在未来 5 年内改变自己的工作方式,但只有 36% 担心 AI 会在这段时间内取代自己的岗位。
地方政策制定者对监管重点意见不一
在美国地方政府中,对隐私保护(80.4%)、再培训政策(76.2%)和部署规范(72.5%)支持度较高。但对禁用人脸识别(34.2%)、工资补贴(32.9%)、全民基本收入(24.6%)支持度较低。
AI 被认为能提升效率和娱乐性,但经济与就业作用信心不足
55% 的人认为 AI 能“节省时间”,51% 认为它能“带来更好的娱乐体验”,但只有 36% 看好它能改善国家经济,31% 认为它将改善就业市场。


最后别忘了
后台回复「斯坦福2025」,获取本报告完整 PDF
(文:赛博禅心)