用 Azure AI Foundry 管好模型、成本与质量——从选模型到上线运营的全流程实践

预计阅读时间：9 分钟

团队拿到 GPT-4o 的 API key 之后，故事并没有结束。模型选哪个、推理成本怎么压、输出质量怎么量化和守住、多模型怎么统一治理——这些问题才是 AI 从"能跑"到"能运营"的真正门槛。Azure AI Foundry 把这些环节串成了一条完整链路：从模型目录筛选、基准评测、成本追踪，到部署上线后的监控与合规治理，开发者可以在一个平台里闭环完成。

下面拆开每个环节，讲清楚 Foundry 做了什么，以及你可以在项目中怎么落地。

模型选择：不只是"谁最强"，而是"谁最合适"

Foundry 的模型目录（Model Catalog）收录了 OpenAI 系列、Meta Llama、Mistral、Cohere 等上百个模型，每个模型附带能力标签、上下文窗口、定价等元数据。关键操作不是挑最贵的，而是按场景匹配：

短文本分类 / 摘要：GPT-4o-mini 或 Llama 3 8B 通常够用，成本只有 GPT-4o 的十分之一。
长文档理解：需要大上下文窗口，优先看 128K 级别的模型。
多模态输入：选带 vision 能力的模型，如 GPT-4o 或 Llama 3.2-Vision。

在 Foundry 门户里可以直接按任务类型、模态、价格区间过滤。如果你习惯 CLI，也可以用 az 命令快速列出：

# 列出当前可用模型及其定价信息
az ml model list --resource-group myRG --workspace myFoundry \
  --query "[].{Name:name, Task:task, Price:pricing}" -o table

实际项目中更推荐的做法：先跑基准评测再拍板，而不是凭直觉选模型。

评测与质量把控：用基准数据集量化"好不好"

Foundry 提供了内置的评测流水线（Evaluation Pipeline），支持你用标准数据集或自定义数据集对多个模型做横向对比。评测维度包括：

准确率 / F1：分类、抽取类任务。
BLEU / ROUGE：生成类任务。
安全与偏见指标：内置 Responsible AI 评测集。
自定义业务指标：比如"回答是否包含关键步骤"这种结构化评判。

下面是一个用 Python SDK 跑评测的完整示例——假设你已经在 Foundry 里创建了 workspace endpoint：

from azure.ai.evaluation import Evaluate, QAEvaluator, ContentSafetyEvaluator

# 1. 准备评测数据（JSONL 格式，每行一条 query + ground_truth）
eval_data = [
    {"query": "如何重置密码？", "ground_truth": "点击登录页'忘记密码'链接，输入注册邮箱，按邮件指引操作。"},
    {"query": "退货流程是什么？", "ground_truth": "在订单详情页点击'申请退货'，选择原因，等待审核通过后寄回商品。"},
]

# 2. 配置评测器组合
evaluators = {
    "qa": QAEvaluator(model_config={"model": "gpt-4o", "endpoint": "https://my-foundry.cognitiveservices.azure.com"}),
    "safety": ContentSafetyEvaluator(model_config={"model": "gpt-4o", "endpoint": "https://my-foundry.cognitiveservices.azure.com"}),
}

# 3. 对两个候选模型分别跑评测
for model_name in ["gpt-4o-mini", "gpt-4o"]:
    result = Evaluate(
        evaluators=evaluators,
        evaluation_data=eval_data,
        target_model=model_name,       # Foundry 会自动路由到对应部署
        target_endpoint="https://my-foundry.cognitiveservices.azure.com",
    )
    print(f"=== {model_name} 评测结果 ===")
    print(f"QA 准确率: {result.metrics['qa.accuracy']:.2%}")
    print(f"安全风险率: {result.metrics['safety.defect_rate']:.2%}")

运行前需要确认： - azure-ai-evaluation 包已安装（pip install azure-ai-evaluation）。 - 你在 Foundry 门户里已为 gpt-4o-mini 和 gpt-4o 分别创建了部署（Deployment）。 - model_config 中的 endpoint 替换成你自己的 Foundry endpoint URL。

决策逻辑：如果 gpt-4o-mini 在你的业务评测集上准确率只低 3%，但成本降 80%，那就该选 mini——评测数据替你做了取舍。

成本优化：从定价表到实际 Token 消耗的闭环

Foundry 在成本侧做了三件事：

透明定价：模型目录里直接展示每百万 token 的输入/输出价格，不同部署类型（Standard / Global Standard / Provisioned）价格不同。
用量追踪：每个 Deployment 有独立的用量仪表盘，按天/小时粒度展示 token 消耗和费用。
Provisioned throughput：对高并发场景，可以预留算力（PTU），获得固定吞吐和更稳定的单 token 成本。

一个实用的成本监控脚本——每天拉取 token 用量并推到你的告警系统：

# 查询指定部署过去 7 天的 token 消耗与费用
az ml usage list \
  --resource-group myRG \
  --workspace myFoundry \
  --deployment-name gpt4o-mini-deploy \
  --interval daily \
  --start-date 2025-01-01 \
  --end-date 2025-01-07 \
  --query "[].{Date:date, InputTokens:input_tokens, OutputTokens:output_tokens, CostUSD:cost}" -o table

实操建议： - 优先用 Global Standard 部署（价格通常比 Standard 低 30-50%，适合非实时场景）。 - 对延迟敏感的实时接口用 Provisioned，但要先算好 PTU 数量——买多了闲置成本很高。 - 在应用层做 token 预估和截断：长对话场景加 max_tokens 限制，避免一个请求烧掉几千 token。

治理与合规：让模型上线有审计轨迹

Foundry 的治理能力覆盖三个层面：

访问控制：每个 Deployment 可以绑定 Azure RBAC，限定哪些团队/服务账号能调用。
内容过滤：内置 Content Safety 过滤器，可配置严重程度阈值，对仇恨、性内容、暴力等类别自动拦截。
审计日志：所有推理请求和响应自动记录到 Azure Monitor，可对接 Log Analytics 做自定义查询。

一个典型的 RBAC 配置——只允许后端服务账号调用，禁止个人直接访问：

# 给后端服务的 managed identity 赋予调用权限
az role assignment create \
  --assignee "my-backend-app" \
  --role "Azure AI Developer" \
  --scope "/subscriptions/<sub>/resourceGroups/myRG/providers/Microsoft.MachineLearningServices/workspaces/myFoundry/onlineEndpoints/gpt4o-mini-deploy"

# 移除个人用户的直接调用权限
az role assignment delete \
  --assignee "user@company.com" \
  --role "Azure AI Developer" \
  --scope "/subscriptions/<sub>/resourceGroups/myRG/providers/Microsoft.MachineLearningServices/workspaces/myFoundry/onlineEndpoints/gpt4o-mini-deploy"

内容过滤器的配置可以在 Foundry 门户的 Deployment 设置里调整，也可以通过 REST API 更新——比如把"暴力内容"的阈值从 Medium 调到 High，适合面向未成年用户的产品。

上线 Checklist

把模型从实验推到生产之前，过一遍这张清单：

检查项	具体动作
模型选择	在业务评测集上横向对比 ≥ 2 个候选模型，记录准确率与成本比值
成本基线	用 Global Standard 部署跑一周，确认日均费用在预算内
延迟基线	用 P50/P95 延迟数据确认满足 SLA；不满足则切换 Provisioned
内容安全	配置 Content Safety 过滤器，跑内置安全评测集确认拦截率
RBAC	限制调用方为指定服务账号，禁止个人直接访问
监控	接入 Azure Monitor，设置 token 消耗突增和错误率告警
回退方案	保留一个备用模型部署，主模型异常时自动降级

Foundry 不是帮你"调一下 API"的工具，而是让团队在模型选型、质量验证、成本控制和合规治理上形成可复现、可审计的流程。当你的 AI 服务从 1 个模型扩展到 5 个、从 100 QPS 涨到 10000 QPS 时，这些流程才是真正省时间、省钱的底层支撑。