用 Cloudflare AI Gateway 给失控的 AI 账单加上实时刹车

预计阅读时间：10 分钟

调用一次 GPT-4o 大概几分钱，跑一轮 Agent 可能几块，但一个没有上限的自动化任务跑一晚上——账单就能从"可接受"直接跳到"需要开会解释"。Cloudflare AI Gateway 新上线的实时消费限额功能，就是给这种场景装了一道硬闸门：token 花到阈值，请求立刻断掉，不再等到月底才看到数字。

AI 账单失控的典型路径

账单爆炸很少是单次调用太贵，而是调用次数失控：

后台 Agent 循环卡死，反复重试同一任务，token 累积到天量。
多团队共享一个 API Key，没人知道别人用了多少，各自跑批处理任务撞在一起。
A/B 测试多个模型（GPT-4o、Claude、Gemini）同时上线，每个模型都在烧钱，汇总时才发现总量远超预期。

传统做法是事后看 Dashboard，或者靠代码里写 max_tokens 参数——但这只控制单次调用长度，不控制总花费。Cloudflare AI Gateway 的思路是：在网关层拦截，按累计消费实时断路。

实时限额怎么工作

AI Gateway 本质上是一个代理层：你的应用把请求发给 Gateway，Gateway 再转发给 OpenAI / Anthropic / Google 等提供商。Gateway 记录每次请求的 token 消耗，累加到你设定的预算池里。一旦累计值触达阈值，后续请求直接返回错误，不再转发。

关键特性：

跨提供商统一计费——同一个预算池覆盖 OpenAI、Anthropic、Mistral 等多个后端，不用分别设限。
实时生效——不是每小时或每天汇总，而是每次请求后立即更新累计值，超限即刻拦截。
按身份分配预算——结合 Cloudflare Access，可以给不同用户或团队设定不同的消费上限。

实操：从零配置一个带限额的 AI Gateway

下面是一个完整示例，展示如何创建 AI Gateway、设置消费限额、并在应用中通过 Gateway 调用模型。

1. 创建 AI Gateway

# 安装 Wrangler CLI（如果还没有）
npm install -g wrangler

# 登录 Cloudflare
wrangler login

# 创建 AI Gateway
curl -X POST "https://api.cloudflare.com/client/v4/accounts/{account_id}/ai-gateway/gateways" \
  -H "Authorization: Bearer {api_token}" \
  -H "Content-Type: application/json" \
  -d '{
    "id": "prod-gateway",
    "cache_invalidate_on_update": true,
    "collect_logs": true
  }'

2. 设置实时消费限额

# 为 Gateway 设置月度总限额（单位：美元）
curl -X POST "https://api.cloudflare.com/client/v4/accounts/{account_id}/ai-gateway/gateways/prod-gateway/limits" \
  -H "Authorization: Bearer {api_token}" \
  -H "Content-Type: application/json" \
  -d '{
    "spend": {
      "enabled": true,
      "limit": 500,
      "interval": "monthly"
    },
    "request": {
      "enabled": true,
      "limit": 100000,
      "interval": "monthly"
    }
  }'

这里同时设了两道闸：消费上限 500 美元/月，请求次数上限 10 万次/月。任一阈值触达，Gateway 都会拦截。

3. 应用层通过 Gateway 调用模型

import openai

# 关键改动：把 base_url 指向你的 AI Gateway
# 格式：https://gateway.ai.cloudflare.com/v1/{account_id}/prod-gateway/{provider}
client = openai.OpenAI(
    api_key="sk-your-openai-key",
    base_url="https://gateway.ai.cloudflare.com/v1/{account_id}/prod-gateway/openai"
)

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "解释一下 token 计费机制"}],
    max_tokens=300
)

print(response.choices[0].message.content)

代码改动极小——只换了 base_url。原有的 SDK、参数、错误处理逻辑全部保留。Gateway 透传请求和响应，同时默默记账。

4. 超限时的响应行为

当累计消费超过阈值，Gateway 返回的结构化错误：

{
  "error": {
    "code": "spend_limit_exceeded",
    "message": "Monthly spend limit of $500 has been reached. Requests are blocked until the next billing cycle or limit is updated."
  }
}

应用层应该捕获这个错误，而不是无限重试：

try:
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": "继续生成"}],
        max_tokens=300
    )
except openai.APIStatusError as e:
    if "spend_limit_exceeded" in str(e):
        # 降级到本地缓存或更便宜的模型
        print("预算已耗尽，切换降级策略")
        fallback_response = call_local_model("继续生成")
    else:
        raise

身份驱动的预算分配

单靠总限额只能防整体超支，但解决不了"一个团队吃掉整个预算"的问题。Cloudflare Access 的集成让预算可以绑定到具体身份：

按团队设不同限额：前端团队每月 100 美元，数据团队每月 200 美元。
按用户级别设限：实习生单日 5 美元，高级工程师单日 50 美元。
所有请求必须经过 Access 认证，未认证请求直接拒绝，不会产生 token 消耗。

配置思路示例（通过 Access Policy 绑定身份与 Gateway 限额）：

# 在 Cloudflare Access 中创建应用策略，限制特定组
# 以下为概念性配置示意，实际在 Dashboard 或 API 中操作
access_policy:
  name: "ai-gateway-data-team"
  application: "ai-gateway-prod"
  decision: "allow"
  includes:
    - group: "data-team@company.com"
  # 配合 Gateway 的 per-identity 限额
  # data-team 组成员共享 200 USD/月 的子预算池

这意味着同一个 Gateway 下，不同身份的人有不同的消费天花板——不再需要为每个团队单独申请 API Key。

采纳前需要想清楚的几件事

延迟影响。Gateway 是额外一跳，实测增加约 20-50ms。对实时对话场景影响不大，但对高吞吐批处理任务，累积延迟需要评估。

限额粒度。当前支持按月/按日设定总限额和请求次数限额。如果你需要按模型、按任务类型分别设限（比如 GPT-4o 上限 300 美元、GPT-4o-mini 上限 50 美元），目前需要通过多个 Gateway 实例来拆分，而不是在同一个 Gateway 内做子分类。

降级策略比限额本身更重要。限额只是刹车，刹车踩下去之后车还得往前走——你需要提前准备好降级方案：切换到更便宜的模型、回退本地缓存、或直接返回"服务暂时不可用"。没有降级方案的限额，等于让产品在预算耗尽时直接宕机。

多提供商的计费差异。不同提供商的 token 定义不同（OpenAI 按 token 计，Google 按 character 计），Gateway 在汇总时做了统一换算，但换算精度取决于提供商公开的定价信息。建议在上线前用小规模测试验证换算结果是否和各提供商 Dashboard 对得上。

上线检查清单

项目	确认
Gateway 已创建，`base_url` 已替换到所有调用点	☐
消费限额和请求次数限额都已设置，interval 选了合适的周期	☐
超限错误已被应用层捕获，不会触发无限重试	☐
降级策略已实现（更便宜模型 / 缓存 / 优雅降级提示）	☐
如果需要身份隔离，Access 策略已配置并测试	☐
小规模跑 1-2 天，对比 Gateway 统计与提供商 Dashboard 的数值差异	☐

AI 账单失控不是概率问题，是时间问题。加一道实时限额，成本是几十毫秒延迟和半天的配置工作；不加限额，成本是一次需要向 CFO 解释的月度超支。选择不难。