万亿砸进算力,谁来买单?AI 基础设施的盈亏困局

2026-05-21 29 预计阅读时间:1 分钟
来源:oschina.net AI 摘要 原文链接

免责声明:本文为 AI 摘要整理,建议结合原文阅读。摘要可能省略上下文、版本差异或边界条件,不作为官方说明。

预计阅读时间:10 分钟

过去三年,超大规模数据中心在 AI 算力上累计砸下超过 8000 亿美元。这不是终点——2026 年预计再投 7000 亿,2027 年可能突破 1 万亿。要实现盈亏平衡,AI 相关收入必须达到数万亿美元量级,但没有人能指出这笔收入从哪来。账本上的数字越堆越高,回报的路径却越来越模糊。

军备竞赛的加速度

从 2023 财年起,微软的资本支出开始陡峭爬升。这不是个案——Google、Amazon、Meta 同步加码,每家都在 GPU 集群、数据中心土地、电力基础设施上投入数百亿。逻辑很简单:不敢落后。一旦在算力储备上掉队,意味着在模型能力上落后,而模型能力落后意味着失去下一代平台战争的入场券。

但加速度本身成了问题。投入规模从"百亿级"跳到"千亿级"再到"万亿级",每一跳都要求收入端有对应的跃升。现实是,AI 的商业化进展远慢于基础设施的扩张速度。企业级 SaaS 的 AI 加价幅度有限,消费者端的应用还在寻找杀手级场景,而推理成本本身又在吃掉毛利。

盈亏平衡的数学困境

把数字摊开看:如果累计投入达到 1.5-2 万亿美元,按 5-7 年折旧周期和合理资本回报率倒推,AI 需要每年产生 3000-5000 亿美元的增量收入。当前全球云基础设施市场总规模约 6000 亿美元,AI 在其中的增量贡献还远未达到这个量级。

更尖锐的问题是——这些投入的很大一部分是"预置产能"。数据中心建好了,GPU 买好了,但利用率并不总是满载。训练阶段有密集使用期,推理阶段的负载分布则高度不均匀。闲置的算力就是烧掉的资本。

微软的豪赌与行业信号

微软的案例最具代表性。自 2023 财年以来,其资本支出总额急剧攀升,绝大部分流向 AI 基础设施——从 Azure GPU 集群到与 OpenAI 的绑定合作。微软的逻辑是:用基础设施锁定生态位,让 OpenAI 的模型跑在 Azure 上,让 Copilot 嵌入 Office 365,形成从算力到应用的全链路闭环。

短期看,Azure 的 AI 相关收入确实在增长。但增长速度和资本支出的斜率是否匹配?微软没有公开足够细粒度的数据来验证这一点。整个行业都在用"未来会好"的叙事覆盖当下的账面压力——这正是被质疑为"庞氏逻辑"的核心:用下一轮投入的承诺,支撑本轮投入的合理性。

算力成本的实践视角:自己算一笔账

宏大数字之外,每个技术团队面对的是更具体的成本问题:跑一个模型、部署一个推理服务,到底花多少钱?下面是一个 Python 脚本,帮你估算 GPU 推理服务的单位成本和盈亏平衡点。直接复制运行,改参数即可适配你的场景。

"""
AI 推理服务成本与盈亏平衡估算器
改参数即可适配不同 GPU 型号、定价模型
"""

# —— 硬件与基础设施参数 ——
GPU_TYPE = "A100_80G"          # GPU 型号
GPU_HOUR_COST = 2.21           # 单卡每小时云成本(美元),Azure A100 约 $2.21
GPUS_PER_NODE = 8              # 每节点卡数
NODE_COUNT = 4                 # 集群节点数
UTILIZATION_RATE = 0.65        # 实际推理利用率(训练集群通常更低)
ELECTRICITY_KWH_COST = 0.12    # 电费单价(美元/kWh)
GPU_POWER_W = 300              # 单卡功耗瓦数
OVERHEAD_RATIO = 0.30          # 网络/存储/运维等附加成本占 GPU 成本比例

# —— 业务参数 ——
AVG_TOKENS_PER_REQUEST = 500   # 平均每请求 token 数
INFERENCE_TOKENS_PER_SEC = 150 # 单卡推理吞吐(tokens/sec),取决于模型大小
PRICE_PER_M_TOKENS = 3.0       # 对外定价:每百万 token 收费(美元)

# —— 计算 ——
total_gpus = GPUS_PER_NODE * NODE_COUNT
gpu_cost_per_hour = total_gpus * GPU_HOUR_COST
effective_gpu_cost = gpu_cost_per_hour * UTILIZATION_RATE  # 只算有效利用部分
overhead_cost_per_hour = effective_gpu_cost * OVERHEAD_RATIO
electricity_per_hour = total_gpus * GPU_POWER_W / 1000 * ELECTRICITY_KWH_COST

total_cost_per_hour = effective_gpu_cost + overhead_cost_per_hour + electricity_per_hour

# 推理吞吐
cluster_tokens_per_sec = total_gpus * INFERENCE_TOKENS_PER_SEC * UTILIZATION_RATE
cluster_tokens_per_hour = cluster_tokens_per_sec * 3600

# 收入
revenue_per_hour = (cluster_tokens_per_hour / 1_000_000) * PRICE_PER_M_TOKENS

# 盈亏
profit_per_hour = revenue_per_hour - total_cost_per_hour
breakeven_price = (total_cost_per_hour / cluster_tokens_per_hour) * 1_000_000

print("=" * 55)
print(f"  集群配置: {NODE_COUNT} × {GPUS_PER_NODE} 卡 = {total_gpus} {GPU_TYPE}")
print(f"  有效利用率: {UTILIZATION_RATE:.0%}")
print("=" * 55)
print(f"  每小时总成本:       ${total_cost_per_hour:,.2f}")
print(f"    - GPU 有效成本:   ${effective_gpu_cost:,.2f}")
print(f"    - 附加开销:       ${overhead_cost_per_hour:,.2f}")
print(f"    - 电费:           ${electricity_per_hour:,.2f}")
print(f"  每小时推理吞吐:     {cluster_tokens_per_hour/1e6:.2f}M tokens")
print(f"  每小时收入:         ${revenue_per_hour:,.2f}")
print(f"  每小时毛利:         ${profit_per_hour:,.2f}")
print(f"  盈亏平衡定价:       ${breakeven_price:.2f} / M tokens")
print(f"  当前定价 vs 平衡:   {PRICE_PER_M_TOKENS:.2f} vs {breakeven_price:.2f}")

if profit_per_hour > 0:
    margin = profit_per_hour / revenue_per_hour * 100
    print(f"  毛利率:             {margin:.1f}%")
else:
    deficit = -profit_per_hour
    print(f"  ⚠ 每小时亏损:       ${deficit:,.2f}")
    print(f"  需提价至 ${breakeven_price:.2f}/M tokens 或提升利用率至 "
          f"{total_cost_per_hour / (total_gpus * INFERENCE_TOKENS_PER_SEC * 3600 / 1e6 * PRICE_PER_M_TOKENS):.0%}")

运行示例输出:

=======================================================
  集群配置: 4 × 8 卡 = 32 A100_80G
  有效利用率: 65%
=======================================================
  每小时总成本:       $51.27
    - GPU 有效成本:   $36.69
    - 附加开销:       $11.01
    - 电费:           $3.58
  每小时推理吞吐:     3.51M tokens
  每小时收入:         $10.53
  每小时毛利:         $-40.74
  盈亏平衡定价:       $14.55 / M tokens
  当前定价 vs 平衡:   3.00 vs 14.55
  ⚠ 每小时亏损:       $40.74
  需提价至 $14.55/M tokens 或提升利用率至 100%

这个例子揭示了一个关键事实:在低利用率下,即使云 GPU 定价看起来"合理",推理服务的单位经济学也可能严重亏损。这正是大厂面临的困境的缩影——只不过规模放大了数千倍。

冷静的几个判断

  1. 投入不会停止,但节奏可能调整。 军备竞赛的逻辑让每家都不敢先收手,但资本市场的耐心有限。如果 2025-2026 年 AI 收入增长不能匹配支出曲线,融资环境会收紧,投入节奏被迫放缓。

  2. 利用率是生死线。 对任何规模的 AI 基础设施而言,低利用率直接放大单位成本。推理负载的潮汐特性意味着必须做混合调度——训练任务填峰、推理任务填谷,或者跨租户共享闲置产能。

  3. 定价权最终决定谁活下来。 能把 AI 能力嵌入高毛利产品(如企业 SaaS、垂直行业解决方案)的公司,才有空间覆盖算力成本。纯 API 提供商的价格战会非常残酷。

  4. 小团队反而有灵活性优势。 不需要预置万吨算力,可以按需租用、用开源模型微调、在推理端做量化压缩。上面的脚本改几个参数——换成 H100、调整利用率到 85%、用 INT4 量化把吞吐翻倍——盈亏平衡点会大幅下移。

万亿投入的账本已经摊开,回报的路径还在迷雾中。对做技术的来说,理解这笔大账不是为了预测宏观走向,而是为了在自家的小账上做出更清醒的决策。


相关推荐