马斯克算力中心拆解:Colossus 1 与 Colossus 2

Colossus 是 xAI[C1](2026 年 2 月并入 SpaceX[C2],合并体估值约 1.25 万亿美元)在美国田纳西州孟菲斯与密西西比州 Southaven 一带建设的两座 AI 数据中心。[24] Colossus 1 于 2024 年 7—9 月投运,约 23 万张 GPU、装机约 300 MW;Colossus 2 于 2026 年 1 月投运,目标 55.5 万张 GPU、2 GW。本文从外到内按四个空间层拆解其供应商、合同与争议——基础设施层(土地、供电、供水、对外网络)、内部环境层(冷却、机房、机柜)、服务器层(整机及 OEM/ODM)、组件层(GPU、CPU、互联)——并补充贯穿全栈的资金与下游租户两个维度。供电、冷却、计算、存储、网络五类子系统纵向贯穿各层;其中网络分为柜内纵向的 scale-up(NVLink)与集群及跨园区的 scale-out(以太网 fabric)。

xAI Colossus 数据中心内的液冷 GPU 服务器机柜
xAI Colossus 数据中心内的液冷 GPU 服务器机柜(图片来源:ServeTheHome[3]

基础设施层:土地、供电、供水、对外网络

土地与楼宇

Colossus 1 改造自南孟菲斯一座 785,000 sqft 的废弃 Electrolux 工厂;楼宇由 Phoenix Investors[C13] 于 2023 年 12 月以 3,500 万美元购入。xAI 最初被告知新建数据中心需 18—24 个月,转而选用现成厂房,在七八个备选地中约一周内定址,这是其后续 122 天建成的根本前提。[2]

Colossus 2 由 xAI 关联实体 CTC Property LLC 于 2025 年 3 月以近 8,000 万美元购入 Tulane Road 一座 100 万 sqft 仓库及相邻约 100 英亩土地;另由关联实体 MZX Tech LLC 收购密西西比州 Southaven 一座前 Duke Energy[C10] 电厂资产(114 英亩,带电力传输线,毗邻 TVA[C16] 联合循环燃气电厂)。2025 年底再购第三栋楼,命名 MACROHARDRR。[2][14]

楼宇与地块均有公开产权记录。争议在于:居民、市议员与环保机构事先几乎不知情,多数人通过本地新闻才得知该项目。[2][31]

供电

电网方面,Colossus 1 站点初始并网仅 8 MW,经 MLGW[C15] 升级至 50 MW,2024 年 11 月 TVA 批准升至约 150 MW;xAI 承诺出资 2,400 万美元自建 150 MW 变电站,建成后移交 MLGW。[12]

现场燃气轮机为供电核心。早期临时电源为 VoltaGrid[C9] 的 14 台 2.5 MW 移动机组(共 35 MW)及 Solar Turbines[C7] 的 16 MW SMT-130。[12] 规模化供电由 Solaris Energy Infrastructure(SEI)[C6] 以 power-as-a-service 方式提供:其约 400 MW 现服务 xAI,xAI 占其订单簿约 67%(约 1,140 MW),双方合资成立 Stateline Power(Solaris 50.1% / xAI 49.9%)。[13][14] 轮机由卡特彼勒子公司 Solar Turbines 制造,机型为 SMT-130、Titan-350(35—38 MW/台)。[2][7]

电池储能由 Tesla[C8] Megapack 提供(Colossus 1 约 168—208 单元,Colossus 2 约 200 单元),用于平滑训练负载的功率波动;Tesla 财报披露 xAI 于 2024 年采购约 1.91 亿美元、2025 年前两月再采购 3,680 万美元 Megapack。[13]

供电是本项目争议最密集处。2025 年 4 月航拍显示 Colossus 1 现场已部署 35 台燃气轮机(合计约 422 MW),远超许可的 15 台,系利用”便携设备在同一地点不超过 364 天可免监管”的漏洞。南方环境法律中心(SELC)称该设施很可能是孟菲斯最大的工业 NOx 排放源,年排约 1,200—2,000 吨;2026 年 1 月 EPA 修订新源排放标准(NSPS),规定大型甲烷燃气轮机即便临时运行亦需许可证;2026 年 4 月 NAACP 起诉 xAI 子公司 MZX Tech,指其在 Colossus 2 非法运行 27 台甲烷燃气轮机。[2][16][14]

供水

设施预计每日需水超过 500 万加仑,取自密西西比河及孟菲斯含水层;xAI 承诺建设约 8,000 万美元的废水(中水)回收厂。孟菲斯峰值电力需求约 3 GW,SELC 曾致信 TVA,呼吁优先保障居民可靠用电。[2]

对外与跨园区网络

园区内组网性能极强(见第 4 节),但园区之间是另一问题。据 Bloomberg 引述知情人,xAI 原计划将三个相距 10 英里以上的园区联为单一集群训练,却因跨园区延迟与老旧网络基础设施受阻,这是 Colossus 1 后被整租出去的技术动因之一。[21]

内部环境层:冷却、机房、机柜

冷却系统

Colossus 1 以液冷为主:冷板(cold-plate)直冷 GPU,余热由后门热交换器带走,每机柜底部配冷却液分配单元(CDU);该套系统随 Supermicro[C4] 整机一体交付。[3] Colossus 2 采用混合方案:约一半冷却来自 xAI 的中水(graywater)设施,另一半为风冷,至 2025 年 8 月约 119 台风冷 chiller 提供约 200 MW 冷却能力。建设初期 xAI 一度租走全美约四分之一的移动冷却产能以抢工期。[7][4]

机房与机柜

H100/H200 代每机柜含 8 台服务器、共 64 张 GPU,8 个机柜成组(512 张 GPU),全系统超 3,000 个 GPU 机柜,约 80 kW/柜。[3] Blackwell 代转向 GB200/GB300 NVL72 机柜级架构:每柜 72 张 GPU、以 NVLink 全互联、必须液冷,Colossus 2 满载推算约 7,700 个计算机柜,单柜功率从约 120 kW 向兆瓦级演进。[7]

服务器层:整机与 OEM/ODM

双 OEM:Supermicro 与 Dell

Colossus 的服务器由 Supermicro 与 Dell[C5] 两家提供,大致各占一半。[42] Supermicro 供应 4U Universal GPU 液冷服务器、1U 存储节点、CDU 与机柜,于圣何塞预装后运抵现场;Dell 共建服务器与系统,Blackwell 代采用其 IR7000 GB200 NVL72 机柜。[3][41]

合同方面,Dell 的 GB200 服务器合同超 50 亿美元,并在其 8-K 中公开确认——迈克尔·戴尔称已签的 xAI 等订单使 AI 服务器在手订单约 90 亿美元。[37][38] Supermicro 的合同金额与份额未披露。[3][6]

整机形态:HGX、NVL72 与 DGX

xAI 使用英伟达[C3]的机柜级架构,但未采购英伟达品牌的整机成品。H100/H200 阶段采用英伟达 HGX 8 卡基板(板上集成 NVLink/NVSwitch),由 OEM 装入服务器;Blackwell 阶段采用英伟达 GB200/GB300 NVL72 机柜级参考设计,英伟达供应核心部件(Blackwell/Grace、NVLink 交换托盘、网卡),由 OEM 组装为整柜(Supermicro SuperCluster、Dell IR7000,单柜价值约 370 万美元);英伟达品牌的 DGX/DGX SuperPOD 整机则未被采用。[41] 选择 OEM 集成而非 DGX 的原因有三:规避 DGX 品牌溢价;便于定制(xAI 采用 Spectrum-X 以太网而非 DGX 默认的 InfiniBand,并需特定液冷方案);多 OEM 并行供货可加快部署、分散产能瓶颈。[3]

存储

存储平台跑在 Supermicro 硬件上,主力为 VAST Data[C11](公司自证为 Colossus 的数据平台);DDN[C12] 亦参与(其自称主存储,且英伟达高管 Dion Harris 公开点名),但 ServeTheHome 拆解视频中未见 DDN 设备。两家均为私有公司,合同条款未披露,且对各自”主存储”角色存在口径之争。[10][11]

组件层:GPU、CPU、互联

GPU

GPU 由英伟达提供。Colossus 1 为 15 万张 H100、5 万张 H200、3 万张 GB200(约 23 万张);Colossus 2 以 GB200/GB300 为主,目标 55.5 万张,首批至少 11 万张 GB200 NVL72。[2][7]

混合架构构成 Colossus 1 的核心工程缺陷。三代芯片混用(系极限工期下被动结果),而分布式训练要求每张卡逐步同步,快的 GB200 须等待慢的 H100,即 straggler(掉队者)效应,在 22 万卡规模上被指数级放大,使 Colossus 1 的模型算力利用率(MFU)降至约 11%(业界产线级为 35—45%)。这是 xAI 将训练迁至纯 Blackwell 架构的 Colossus 2、并将 Colossus 1 腾出对外出租的根本技术原因。[5][21]

CPU

H100/H200 阶段采用 x86 CPU(每台 HGX 服务器两颗),而非英伟达自家 ARM 架构的 Grace,主因是进度优先与 x86 软件环境成熟;GB200/GB300 阶段则随 NVL72 引入英伟达 Grace CPU(每 2 颗 Grace 配 4 颗 Blackwell)。[3][7]

互联与网络

柜内纵向互联(scale-up)采用英伟达 NVLink,在 NVL72 内将 72 张 GPU 连为单一一致性域。[7] 柜间横向互联(scale-out)采用英伟达 Spectrum-X 以太网而非 InfiniBand:交换机为 SN5600(51.2 Tbps,2U 提供 64 个 800GbE 端口),网卡为 BlueField-3 SuperNIC;每张 GPU 配一块专属 400GbE 网卡,每台服务器再增一块,使每台 HGX H100 服务器具备 3.6 Tbps 以太网带宽。据英伟达,在十万 GPU 规模上 Spectrum-X 实现约 95% 数据吞吐且零流冲突丢包,传统以太网仅约 60%。[1]

资金与融资

xAI 于 2026 年 1 月完成 200 亿美元 E 轮融资(原目标 150 亿,超募),估值约 2,300 亿美元,为当时全球第三大 AI 创业公司;结构为 GPU 抵押 SPV(约 75 亿美元股权 + 125 亿美元债务),战略投资方含英伟达(计划至多约 20 亿)与思科[C20][17][18][19]

GPU 采购通过专门的租赁结构完成。Valor Equity Partners[C18] 旗下的 Valor Compute Infrastructure(VCI)以约 54 亿美元购入英伟达 GB200,以三净租赁(triple-net lease)方式租给 xAI 子公司;其中 Apollo[C17] 提供 35 亿美元债务,英伟达以约 19 亿美元作为锚定有限合伙人,使买卖双方均不将该笔资产计入自身资产负债表。Apollo 在五周内向 xAI 相关交易投放约 70 亿美元。[35][36] 此外,xAI 另有约 180 亿美元、约 30 万张 GPU 的直接采购承诺,与上述 SPV 的关系未完全公开;2025 年 7 月另由摩根士丹利[C19]安排 50 亿美元债务(加 50 亿美元股权)。[19]

该结构存在循环融资特征:英伟达既向 SPV 出售 GPU 又持有其股权,Apollo 经其保险子公司 Athene 出债,Google 既是 SpaceX 股东又是其算力租客。投资人 Michael Burry 公开质疑该英伟达/xAI 交易,称其”fugazi(虚假)”。[36][39]

相关商业合同

2026 年,Colossus 由 xAI 自用工厂转为对外出租算力的运营模式。SpaceX 已于 2026 年 6 月 12 日在纳斯达克上市(代号 SPCX):发行价 135 美元、估值约 1.77 万亿美元,为史上最大 IPO,首日收涨 19% 收于 161 美元(此前 4 月秘密提交、5 月 20 日公开 S-1)。本节统一列出围绕两座数据中心的两侧公开合同:客户侧(对外出租算力)与供应商侧(为数据中心采购设备、土地、电力与资金)。

客户侧:下游算力租约(均可公开查到)

客户合同内容期限与金额来源
Anthropic[C21]横跨 Colossus 与 Colossus II 的算力,约 22 万张 GPU、300 MW,跑 Claude 推理12.5 亿美元/月,至 2029 年 5 月,合计约 450 亿美元;双向 90 天取消[33][20][22]
Alphabet / Google[C22]约 11 万张 GPU 及配套 CPU/内存9.2 亿美元/月,2026 年 10 月—2029 年 6 月,合计约 300 亿美元;90 天取消[24][25]
Anysphere(Cursor)[C23]使用 xAI 算力;SpaceX 已于 2026 年 6 月 16 日宣布行使收购权,以全股票收购 Anysphere(估值 600 亿美元),预计 2026 Q3 完成含 85 亿美元递延服务费,2026 年 4 月披露合作[34][29]

Anthropic 与 Google 两笔合计月租约 21.7 亿美元(约 260 亿美元/年),约为 Grok 年订阅与 API 收入的 13 倍。[28] 经核查,未发现 SAP 等其他厂商与 Colossus 的算力合同;Anthropic 公告中提及的与 Amazon、Microsoft、Nvidia 的协议属其更广泛的算力来源,不属于 Colossus 合同;Google 租用的具体园区未在文件中点名。[25][20]

供应商侧:可公开查到的合同

供应商合同内容金额所属层来源
英伟达(经 Valor VCI)GB200 三净租赁SPV 约 54 亿(Apollo 35 亿债务 + 英伟达约 19 亿股权)组件层[35][36]
DellGB200 服务器超 50 亿(8-K 证实)服务器层[37][38]
Solaris(SEI)约 1,140 MW 轮机 + Stateline JVJV 已投约 1.12 亿基础设施层[14]
TeslaMegapack 储能2024 约 1.91 亿 + 2025 前两月 3,680 万基础设施层[13]
Phoenix InvestorsColossus 1 楼宇3,500 万基础设施层[2]
CTC Property / MZX Tech地块Colossus 2 区约 8,000 万基础设施层[14]
摩根士丹利安排债务50 亿资金层[19]

供应商侧:已知存在、条款未公开

Supermicro(整机与冷却)、VAST Data 与 DDN(存储)、Solar Turbines/卡特彼勒(轮机)、VoltaGrid(机组)、xAI 直接 GPU 采购承诺(约 180 亿)、Introl[C14](布线转包)、MLGW 与 TVA(电力、供水、变电站)均确认参与,但合同金额、份额或条款未公开。[3][6][10][11][12][19][30]

商业模式定性

评论界就此出现”前沿实验室还是算力 REIT”之争:xAI 预训练团队据报缩减至 5 人以下,Grok 2026 年约 20 亿美元的产品收入与 2,300 亿美元估值形成倒挂,租金成为支撑估值的核心。一个反讽是:Anthropic 曾于 2026 年 1 月因 xAI 工程师使用 Claude 输出训练自有模型而撤销其 API 访问,四个月后两家即签下每年约 150 亿美元的算力合同。[26][28]

争议与风险

环保与法律:Colossus 1 的 35 台无证燃气轮机(许可仅 15 台)、Colossus 2 的 27 台轮机(NAACP 诉讼)、《清洁空气法》诉讼、EPA 2026 年 1 月堵漏新规、年排 1,200—2,000 吨 NOx、耗水与社区健康。

工程:异构混合架构与跨园区延迟造成的工程债,已实质性损害 Colossus 1 的训练价值(MFU 约 11%)。

资金:月烧超 10 亿美元,E 轮中约 125 亿为 GPU 抵押债务,2,300 亿估值与约 20 亿产品收入倒挂,循环融资结构脆弱。

商业:“前沿实验室”与”算力 REIT”的定性之争;Anthropic 撤销 API 又租用其算力的信任反讽。

口径:多处数据受 NDA、厂商自报、“铭牌装机”与”实际在运”口径差异影响(例如 Colossus 1 装机约 300 MW,而 S-1 中实际在运约 130 MW;Colossus 2 在运约 210 MW)。任何单一数字均应交叉验证。[23]

参考公司

列出文中涉及的公司及其官网与上市情况(美股标注交易所与代号;私有公司、市政或联邦实体另行注明)。

  • [C1] xAI — x.ai — 私有(2026 年 2 月并入 SpaceX);旗下含关联实体 CTC Property LLC、MZX Tech LLC
  • [C2] SpaceX(SpaceXAI)— spacex.com — 2026 年 6 月 12 日上市,美股 NASDAQ: SPCX(IPO 估值约 1.77 万亿美元,史上最大)
  • [C3] NVIDIA(英伟达)— nvidia.com — 美股 NASDAQ: NVDA
  • [C4] Super Micro Computer(超微/Supermicro)— supermicro.com — 美股 NASDAQ: SMCI
  • [C5] Dell Technologies(戴尔)— dell.com — 美股 NYSE: DELL
  • [C6] Solaris Energy Infrastructure — solaris-energy.com — 美股 NYSE: SEI(原 Solaris Oilfield,代号 SOI)
  • [C7] Caterpillar(卡特彼勒;子公司 Solar Turbines,solarturbines.com)——) caterpillar.com — 美股 NYSE: CAT
  • [C8] Tesla(特斯拉)— tesla.com — 美股 NASDAQ: TSLA
  • [C9] VoltaGrid — voltagrid.com — 私有(休斯顿)
  • [C10] Duke Energy — duke-energy.com — 美股 NYSE: DUK(C2 地块前业主/出售方)
  • [C11] VAST Data — vastdata.com — 私有
  • [C12] DDN(DataDirect Networks)— ddn.com — 私有
  • [C13] Phoenix Investors — phoenixinvestors.com — 私有(C1 楼宇业主)
  • [C14] Introl(Introl Solutions)— introl.com — 私有(布线转包)
  • [C15] Memphis Light, Gas and Water(MLGW)— mlgw.com — 孟菲斯市政公用事业(不可投资)
  • [C16] Tennessee Valley Authority(TVA)— tva.com — 美国联邦机构(发债不发股)
  • [C17] Apollo Global Management — apollo.com — 美股 NYSE: APO
  • [C18] Valor Equity Partners(旗下 Valor Compute Infrastructure)— valorep.com — 私有
  • [C19] Morgan Stanley(摩根士丹利)— morganstanley.com — 美股 NYSE: MS
  • [C20] Cisco Systems(思科)— cisco.com — 美股 NASDAQ: CSCO
  • [C21] Anthropic — anthropic.com — 私有
  • [C22] Alphabet(Google)— abc.xyz — 美股 NASDAQ: GOOGL / GOOG
  • [C23] Anysphere(Cursor)— cursor.com — 私有(SpaceX 收购中,2026 Q3 预计完成)

参考资料