一个大模型训练成本要上亿美元，为何开发AI如此烧钱？

来源：腾讯科技· 2024-05-07 08:50:48

据国外媒体报道，在生成式人工智能热潮持续近18个月后，一些科技巨头正在逐步证实，人工智能确实具备成为真正的收入驱动因素的潜力。然而，这一进程也伴随着巨大的资金投入。

微软和谷歌母公司Alphabet最新公布的季度财报均显示，由于企业客户在人工智能服务上的投入增加，其云计算业务实现了显著的收入增长。尽管Meta在将人工智能技术转化为收益方面稍显滞后，但它表示，其相关努力对提高用户参与度和广告定位有积极影响。

为了获取这些早期收益，这三家科技巨头已经投入了数十亿美元用于人工智能的研发，并计划继续加大投资力度。

微软在4月25日宣布，最近一个季度资本支出高达140亿美元，并预计这些成本还将“大幅增加”，部分原因即是对人工智能基础设施的投资。这一数字比去年同期增长了79%。

be0e46416aedaca24b3608cc8efec0bf_interlace,1.jpg

Alphabet表示，该公司上个季度的资本支出为120亿美元，同比增长91%，并预计今年剩余时间的支出将“达到或超过”这一水平，因为该公司正专注于人工智能带来的机会。

与此同时，Meta也提高了今年的投资预期，现在预计资本支出将在350亿至400亿美元之间。若以该区间的上限计算，将同比增长42%。Meta还特别指出，其在人工智能研究和产品开发方面进行了积极投资。

人工智能成本上升让许多投资者感到意外。尤其是Meta的股价，在支出预测增加和销售增长低于预期的双重打击下大幅下跌。但在科技行业内，人工智能成本上升的预期一直存在。这主要源于两个关键因素：人工智能模型规模的不断扩大，导致开发成本日益攀升；同时，全球对人工智能服务的需求不断增长，需要建设更多的数据中心来支持这一需求。

正在试验这些人工智能服务的企业可以选择支付定制费用给OpenAI或谷歌等公司。然而，一旦这些系统启动并运行，每次用户使用聊天机器人或要求人工智能服务分析销售数据时，都会增加额外的成本。但更为昂贵的工作是为这些人工智能系统建立坚实的基础设施。这些努力正是这些科技巨头当前和未来投资的重点。

大语言模型变得越来越大

如今，备受瞩目的人工智能产品，如OpenAI的ChatGPT，其核心驱动均源自大语言模型。这些系统通过摄入海量的数据，涵盖书籍、文章以及在线评论等，旨在为用户提供最精准的查询回应。许多业界领先的人工智能公司坚信，通往更高级别人工智能（甚至可能是在多个任务上超越人类的人工智能系统）的必经之路，就是不断扩大这些大语言模型的规模。

为此，需要持续获取更多的数据、更为强大的算力支持，以及对人工智能系统进行更长时间的训练。在4月初的一次播客采访中，OpenAI的竞争对手Anthropic的首席执行官达里奥·阿莫代伊（Dario Amodei）指出，当前市场上人工智能模型的培训成本已高达约1亿美元。

他进一步表示：“目前正在训练的模型，以及预计在今年晚些时候或明年年初不同时间推出的模型，其成本已接近10亿美元。而在我看来，到了2025年和2026年，这一成本将飙升至50亿或100亿美元。”

芯片和计算成本激增

在开发人工智能技术的过程中，芯片成本占据了很大比重。这些芯片并非传统意义上让英特尔声名远扬的中央处理器（CPU），也非驱动数十亿智能手机的小型化移动芯片。为了满足大语言模型的训练需求，人工智能公司高度依赖图形处理单元（GPU），它们以惊人的速度处理着庞大的数据集。然而，这些芯片不仅面临供应短缺的困境，其价格更是高昂至极，最尖端的芯片主要由英伟达制造。

英伟达的H100图形芯片，作为训练人工智能模型的黄金标准，其预估售价高达3万美元，但市场上一些经销商的报价更是成倍增长。大型科技公司对这类芯片的需求巨大。此前，Meta的首席执行官马克·扎克伯格（Mark Zuckerberg）曾公开表示，该公司计划在年底前采购35万枚H100芯片，以支持其人工智能研究工作的推进。即便考虑到大宗购买的优惠，这也将是一笔庞大的开支，数额高达数十亿美元。

当然，企业并非只能通过购买实体芯片来完成这项工作，租用芯片同样是一种选择，但成本同样不菲。以亚马逊的云计算部门AWS为例，他们将以每小时约6美元的价格向客户出租由英特尔制造的大型处理器集群。相较之下，一组英伟达H100芯片的使用成本则接近每小时100美元。

上个月，英伟达推出了名为Blackwell的新处理器，其处理大语言模型的速度实现了质的飞跃，预计价格将与包括H100在内的Hopper系列相近。英伟达表示，训练一个拥有1.8万亿参数的人工智能模型需要大约2000个Blackwell GPU。据外媒报道，这与OpenAI GPT-4相差不大。相较之下，使用Hopper GPU完成同样的任务则需要8000个。然而，这种显著的效率提升可能很快被业界对构建更大规模人工智能模型的追求所抵消。

数据中心建设

购买了这些芯片的公司，还需考虑如何妥善安置它们。为此，Meta、亚马逊、微软和谷歌等顶尖云计算公司以及其他计算能力租赁提供商正竞相建立新的服务器设施。这些建筑通常是根据特定需求定制的，内部整齐排列着硬盘、处理器、高效的冷却系统、大量的电气设备和备用发电机。

据研究机构Dell'Oro Group的估算，今年企业预计将在数据中心的建设和装备上投入高达2940亿美元，这一数字相较于2020年的1930亿美元有显著增长。这种迅猛的扩张在很大程度上得益于数字服务的广泛崛起，包括流媒体视频的流行、企业数据量的爆炸式增长以及社交媒体信息流的激增。然而，值得注意的是，越来越多的投资正被用于购买昂贵的英伟达芯片和其他支持人工智能繁荣所需的专业硬件。

交易和人才争夺战

尽管芯片和数据中心占据了人工智能技术研发成本的主要部分，但一些人工智能公司也投入巨额资金，从出版商那里获取数据许可。

OpenAI已经与几家欧洲出版商达成了协议，将他们的新闻内容纳入ChatGPT，并用于训练其人工智能模型。尽管这些交易的具体财务条款尚未公开，但之前已有媒体报道，OpenAI同意向德国出版商Axel Springer和美国主流网络媒体BI支付数千万欧元，以获取其新闻文章的使用权。这家初创公司还与《时代》、CNN和福克斯新闻就内容授权进行了谈判。

尽管OpenAI在获取许可协议方面表现得更为积极，但大型科技公司也在积极寻找获取语言数据的方法，以构建引人注目的人工智能工具。据报道，谷歌与Reddit达成了一项价值6000万美元的数据授权协议。而外媒消息称，Meta的员工也在探讨收购图书出版商Simon & Schuster的可能性。

同时，科技公司也陷入了激烈的人工智能人才争夺战。去年，流媒体巨头Netflix曾一度发布广告，招聘人工智能产品经理一职，年薪高达90万美元。