马斯克 AI 超算细节曝光:已投资 4 亿美元,百万 GPU 电力缺口大
北京时间 4 月 2 日,埃隆・马斯 (Elon Musk) 曾表示,他的人工智能创业公司 xAI 将在美国田纳西州孟菲斯市建造世界上最大的超级计算机。《商业内幕》看到的文件显示,该公司正为此投入数亿美元,但面临较大的电力缺口。
自 2024 年 6 月该项目首次宣布以来,xAI 已经向孟菲斯规划与发展机构提交了 14 份建筑许可证申请,总预估成本为 4.059 亿美元 (约合 29 亿元人民币)。
文件还显示,xAI 无法从孟菲斯当地电网获得足够的电力来运行 100 万个 GPU,除非它在项目所在地自行建设发电设施。马斯克此前称,要将孟菲斯超级计算机 Colossus 扩大十倍,以容纳 100 万个 GPU。
这些许可证申请涵盖了电气、机械、管道以及其他各类工程,其中包括一项价值 3000 万美元的计算机设备安装工程以及一项造价 390 万美元、用于抵御汽车碰撞的围栏建造工程。
电力缺口大
截至目前,xAI 已向孟菲斯照明、天然气和水处理公司 (MLGW) 申请了 300 兆瓦的电网电力,并已获得 150 兆瓦的供电许可。
xAI 已申请在超级计算机项目现场安装天然气涡轮机来发电。该公司表示,能否全部使用 300 兆瓦的电网电力取决于该地区“重大基础设施升级”和输电网络的改善。与此同时,xAI 一直在使用卡特彼勒子公司 Solar Turbines 的燃气发电机来补充电力供应,这些发电机的总发电能力为 250 兆瓦。
xAI 在许可申请中称,“如果没有额外的现场发电,我们无法满足客户需求”。田纳西河谷管理局 (TVA) 负责为田纳西州大部分地区及周边六个州部分地区供电,它在今年 2 月表示,计划在未来几年投资 160 亿美元,以满足其辖区内历史性的负荷增长。这一增长主要受到 xAI、其他数据中心以及该地区电池制造商扩张的推动。
田纳西河谷管理局发言人在声明中表示,其董事会“需要审查并批准任何超过 100 兆瓦的新负荷,以确保电力系统的可靠性得以维持”。
加州大学河滨分校电气与计算机工程副教授任绍磊 (Shaolei Ren) 表示,凭借自主现场发电能力,xAI 很可能可为 20 万个英伟达 H100 GPU 提供电力,但进一步扩展算力将面临挑战。
“虽然仍可能扩大算力,但这意味着需要采用激进的超额预订策略。”任绍磊表示。超额预订是数据中心常用的一种做法。数据中心会向客户提供比其实际可用电力更大的合同电力额度,原因是并不是所有客户都会在同一时间使用他们全部预订的电力。
根据任绍磊的计算,运行 100 万个 GPU 可能需要超过 1 千兆瓦的电力,是 xAI 目前在孟菲斯可获得电力的四倍。