根据斯坦福大学2025年人工智能指数报告,在短短18个月内,高端人工智能法学硕士(LLM)的训练成本已从每百万个tokens 20美元暴跌至每百万个tokens 0.07美元。斯坦福大学的年度报告对全球人工智能格局进行了全景式概述,并指出迫切需要制定更负责任的人工智能护栏,以及美国和中国在新兴人工智能技术领域的竞争日趋激烈。
斯坦福大学以人为本人工智能研究所 (HAI) 自 2017 年起每年发布其年度人工智能指数报告,其近期报告经常被世界各国政府引用。HAI 收集并整理了人工智能各个方面的数据,研究了市场投资、该技术最常被应用的领域和方式,以及最缺乏的领域。今年的报告对 2024 年人工智能的发展提供了深刻的见解,并预测了其未来的发展方向。
训练成本越来越高,推理成本越来越低
仅在去年,人工智能模型的使用成本就大幅下降,但与此同时,它们的训练成本却更高。HAI 的研究附带图表展示了这一明显的矛盾:随着各大公司对其旗舰模型的投资不断增加,运行和查询相同模型的成本却大幅下降。
OpenAI、Meta 和Google都大幅增加了对其旗舰语言模型的投入。平均而言,每家公司训练其最新旗舰 AI 模型的投入是前一代的 28 倍(Meta 的投入从 300 万美元增至 1.7 亿美元,增幅最大)。其他相对较新的公司,例如 Mistral 和 xAI,也投入了巨额资金进入该领域——Grok-2 的训练成本估计为 1.07 亿美元。
训练这些大模型(LLM)的成本似乎也不会很快下降。xAI 于 2 月份向公众发布的 Grok-3 据称使用的训练 GPU 是 Grok-2 的 10 倍。Grok-3 没有官方价格标签,但其完成成本可能高达 10 亿美元甚至更多。
如果训练计算机程序所需的这些数字看起来像天文数字,那是因为它们本来就如此。尽管这些价值数万亿美元的公司为下一代人工智能投入了数千亿美元,但达到 GPT-3.5 性能的成本却大幅下降。从 2022 年 11 月到 2024 年 10 月,推理一个达到 GPT-3.5 级别性能(HAI 定义为 64.8% 的准确率)的模型的成本下降了 280 倍。
小型AI模型的硬件和运营成本下降是价格下降的主要原因。去年,企业AI硬件成本下降了30%,新硬件的能效也提高了40%。企业可能会继续每年在旗舰模型的训练上投入越来越多的资金,但对GPT-3.5性能感到满意的普通用户会发现他们的成本越来越低。
中国正在追赶美国的主导地位
自人工智能技术突破性地进入主流以来,美国一直是该领域投入最多、成果最显著的国家。然而,中国在这场人工智能竞赛中紧随其后。在行业基准测试中,美国和中国大模型项目的顶尖水平越来越接近。
在LMSYS Chatbot Arena的盲测投票中,美国最佳模型仅比中国冠军模型高出1.70%。顶级基准测试MMLU和HumanEval的结果也开始接近,但美国仍然略微领先。
美国在数量上仍然轻松超越中国,即便质量并非如此。在 HAI 收集的一系列备受瞩目的人工智能模型中,美国凭借 2024 年最引人注目的大模型(LLM)中的 40 个轻松领先。中国则以 15 个模型远远落后,而整个欧洲仅为这场竞赛贡献了 3 个模型。
有害人工智能事件
HAI 关于“负责任的人工智能”的章节更清晰地描绘了使用人工智能的现实,其风险并非为零。致力于收集有害人工智能事件信息的非营利研究机构——人工智能事件数据库 (AIID) 报告称,2024 年有害人工智能事件数量令人担忧地大幅增加。2024 年,AIID 共收到 233 起有害或危险事件报告,超过了 2023 年的约 150 起和 2022 年的约 100 起。
HAI 的完整第三章列出了 2024 年发生的一些最严重的事件。这些事件包括利用防盗 AI 伪造身份,将购物者误认为是商店扒手、深度伪造色情内容,以及聊天机器人鼓励有害行为(包括自残)的案例。值得注意的是,很少有 AI 公司在发生 AI 事件时愿意承担责任,上述几起事件导致涉事公司拒绝道歉或赔偿。
这份 8 章的研究报告涵盖的范围远超本文,需要大量时间阅读。人工智能领域比以往任何时候都更加广阔,投入也更多,因此近期可能撼动现状的关税措施对这个尚处于萌芽阶段的行业来说令人担忧。这项技术的未来尚不明朗,但希望在未来几年,训练和应用中的安全和责任能得到更充分的关注。
最重要的结论
1. 人工智能在高要求基准测试中的表现持续提升。
2023 年,研究人员推出了新的基准——MMMU、GPQA 和 SWE-bench——来测试高级 AI 系统的极限。仅仅一年后,性能就大幅提升:MMMU、GPQA 和 SWE-bench 上的得分分别上升了 18.8、48.9 和 67.3 个百分点。除了基准之外,AI 系统在生成高质量视频方面取得了重大进展,在某些情况下,语言模型代理甚至在时间预算有限的编程任务中胜过人类。
2. 人工智能日益融入日常生活。
从医疗保健到交通运输,人工智能正迅速从实验室走向日常生活。2023 年,FDA 批准了 223 种支持人工智能的医疗设备,而 2015 年只有 6 种。在道路上,自动驾驶汽车不再是实验性的:美国最大的运营商之一 Waymo 每周提供超过 15 万次自动驾驶汽车,而百度价格实惠的 Apollo Go 自动驾驶出租车车队现已服务于中国众多城市。
3. 企业全面投入人工智能,推动创纪录的投资和使用,因为研究继续表明人工智能对生产力有强大的影响。
2024年,美国私人人工智能投资增长至1091亿美元,几乎是中国(93亿美元)的12倍,英国(45亿美元)的24倍。生成式人工智能发展势头尤为强劲,吸引了339亿美元的全球私人投资,较2023年增长18.7%。人工智能的商业应用也在加速增长:78%的组织报告称,2024年他们将使用人工智能,高于前一年的55%。与此同时,越来越多的研究证实,人工智能能够提高生产力,并且在大多数情况下,有助于缩小劳动力的技能差距。
4. 美国在生产顶级人工智能模型方面仍然处于领先地位,但中国正在缩小性能差距。
2024 年,美国机构开发了 40 个值得关注的 AI 模型,远远超过中国的 15 个和欧洲的 3 个。虽然美国在数量上保持领先,但中国模型已迅速缩小质量差距:MMLU 和 HumanEval 等主要基准测试上的性能差异从 2023 年的两位数缩小到 2024 年的平价。与此同时,中国在 AI 出版物和专利方面继续保持领先地位。与此同时,模型开发日益全球化,中东、拉丁美洲和东南亚等地区推出了引人注目的模型。
5. 负责任的人工智能生态系统发展不平衡。
与人工智能相关的事件急剧增加,然而,在主要的工业模型开发者中,标准化的 RAI 评估仍然很少见。然而,像 HELM Safety、AIR-Bench 和 FACTS 这样的新基准测试为评估事实性和安全性提供了有前景的工具。在企业中,识别 RAI 风险与采取有效行动之间仍然存在差距。相比之下,各国政府正表现出越来越强烈的紧迫感:2024 年,全球人工智能治理合作加强,包括经合组织、欧盟、联合国和非洲联盟在内的组织发布了以透明度、可信度和其他负责任人工智能核心原则为重点的框架。
6. 全球对人工智能的乐观情绪正在上升,但地区间分歧依然严重。
在中国(83%)、印度尼西亚(80%)和泰国(77%)等国家,绝大多数人认为人工智能产品和服务利大于弊。相比之下,加拿大(40%)、美国(39%)和荷兰(36%)等地的乐观程度仍然低得多。不过,情绪正在转变:自2022年以来,一些此前持怀疑态度的国家的乐观程度显著增强,包括德国(+10%)、法国(+10%)、加拿大(+8%)、英国(+8%)和美国(+4%)。
7.人工智能变得更加高效、经济实惠且易于获取。
在小型模型能力不断增强的推动下,GPT-3.5 级别系统的推理成本在 2022 年 11 月至 2024 年 10 月期间下降了 280 多倍。在硬件层面,成本每年下降 30%,而能效每年提升 40%。开放权重模型与封闭模型的差距也在缩小,在某些基准测试中,一年内性能差距从 8% 缩小到 1.7%。这些趋势正在迅速降低高级人工智能的门槛。
8. 各国政府正在通过监管和投资加大对人工智能的投入。
2024年,美国联邦机构出台了59项与人工智能相关的法规,数量是2023年的两倍多,发布的机构数量也是2023年的两倍。在全球范围内,自2023年以来,75个国家的立法中对人工智能的提及增长了21.3%,是2016年的九倍。除了日益增长的关注度外,各国政府也在大规模投资:加拿大承诺投资24亿美元,中国启动了475亿美元的半导体基金,法国承诺投资1090亿欧元,印度承诺投资12.5亿美元,沙特阿拉伯的“超越计划”(Project Transcendence)是一项1000亿美元的计划。
9. 人工智能和计算机科学教育正在扩大,但在获取和准备方面的差距仍然存在。
目前,三分之二的国家提供或计划提供K-12计算机科学教育,数量是2019年的两倍,其中非洲和拉丁美洲的进步最为显著。在美国,过去10年中,拥有计算机学士学位的毕业生数量增长了22%。然而,由于电力等基础设施的缺口,许多非洲国家仍然难以获得此类教育。在美国,81%的K-12计算机科学教师认为人工智能应该成为基础计算机科学教育的一部分,但只有不到一半的教师认为自己有能力教授人工智能。
10. 工业界在人工智能领域正在快速发展,但前沿领域正在缩小。
2024年,近90%的知名AI模型来自工业界,高于2023年的60%,而学术界仍然是高引用率研究的主要来源。模型规模持续快速增长——训练计算量每五个月翻一番,数据集每八个月翻一番,功耗每年增长。然而,性能差距正在缩小:排名前十的模型之间的得分差距在一年内从11.9%缩小到5.4%,前两名之间的差距现在仅为0.7%。这个前沿领域的竞争日益激烈,竞争也日益激烈。
11. 人工智能因其对科学的影响而获得最高荣誉。
人工智能日益增长的重要性体现在重大科学奖项中:两项诺贝尔奖分别表彰了深度学习(物理学)及其在蛋白质折叠中的应用(化学)的工作,而图灵奖则表彰了强化学习的突破性贡献。
12. 复杂推理仍然是一个挑战。
人工智能模型在国际数学奥林匹克等任务上表现出色,但在像 PlanBench 这样的复杂推理基准测试中却举步维艰。即使存在可证明的正确解决方案,它们也常常无法可靠地解决逻辑任务,这限制了它们在精度至关重要的高风险环境中的有效性。