用 Azure AI Foundry 管好模型、成本与质量——从选模型到上线运营的全流程实践

2026-06-03 13 预计阅读时间:1 分钟
来源:devblogs.microsoft.com AI 摘要 原文链接

免责声明:本文为 AI 摘要整理,建议结合原文阅读。摘要可能省略上下文、版本差异或边界条件,不作为官方说明。

预计阅读时间:9 分钟

团队拿到 GPT-4o 的 API key 之后,故事并没有结束。模型选哪个、推理成本怎么压、输出质量怎么量化和守住、多模型怎么统一治理——这些问题才是 AI 从"能跑"到"能运营"的真正门槛。Azure AI Foundry 把这些环节串成了一条完整链路:从模型目录筛选、基准评测、成本追踪,到部署上线后的监控与合规治理,开发者可以在一个平台里闭环完成。

下面拆开每个环节,讲清楚 Foundry 做了什么,以及你可以在项目中怎么落地。

模型选择:不只是"谁最强",而是"谁最合适"

Foundry 的模型目录(Model Catalog)收录了 OpenAI 系列、Meta Llama、Mistral、Cohere 等上百个模型,每个模型附带能力标签、上下文窗口、定价等元数据。关键操作不是挑最贵的,而是按场景匹配:

  • 短文本分类 / 摘要:GPT-4o-mini 或 Llama 3 8B 通常够用,成本只有 GPT-4o 的十分之一。
  • 长文档理解:需要大上下文窗口,优先看 128K 级别的模型。
  • 多模态输入:选带 vision 能力的模型,如 GPT-4o 或 Llama 3.2-Vision。

在 Foundry 门户里可以直接按任务类型、模态、价格区间过滤。如果你习惯 CLI,也可以用 az 命令快速列出:

# 列出当前可用模型及其定价信息
az ml model list --resource-group myRG --workspace myFoundry \
  --query "[].{Name:name, Task:task, Price:pricing}" -o table

实际项目中更推荐的做法:先跑基准评测再拍板,而不是凭直觉选模型。

评测与质量把控:用基准数据集量化"好不好"

Foundry 提供了内置的评测流水线(Evaluation Pipeline),支持你用标准数据集或自定义数据集对多个模型做横向对比。评测维度包括:

  • 准确率 / F1:分类、抽取类任务。
  • BLEU / ROUGE:生成类任务。
  • 安全与偏见指标:内置 Responsible AI 评测集。
  • 自定义业务指标:比如"回答是否包含关键步骤"这种结构化评判。

下面是一个用 Python SDK 跑评测的完整示例——假设你已经在 Foundry 里创建了 workspace endpoint:

from azure.ai.evaluation import Evaluate, QAEvaluator, ContentSafetyEvaluator

# 1. 准备评测数据(JSONL 格式,每行一条 query + ground_truth)
eval_data = [
    {"query": "如何重置密码?", "ground_truth": "点击登录页'忘记密码'链接,输入注册邮箱,按邮件指引操作。"},
    {"query": "退货流程是什么?", "ground_truth": "在订单详情页点击'申请退货',选择原因,等待审核通过后寄回商品。"},
]

# 2. 配置评测器组合
evaluators = {
    "qa": QAEvaluator(model_config={"model": "gpt-4o", "endpoint": "https://my-foundry.cognitiveservices.azure.com"}),
    "safety": ContentSafetyEvaluator(model_config={"model": "gpt-4o", "endpoint": "https://my-foundry.cognitiveservices.azure.com"}),
}

# 3. 对两个候选模型分别跑评测
for model_name in ["gpt-4o-mini", "gpt-4o"]:
    result = Evaluate(
        evaluators=evaluators,
        evaluation_data=eval_data,
        target_model=model_name,       # Foundry 会自动路由到对应部署
        target_endpoint="https://my-foundry.cognitiveservices.azure.com",
    )
    print(f"=== {model_name} 评测结果 ===")
    print(f"QA 准确率: {result.metrics['qa.accuracy']:.2%}")
    print(f"安全风险率: {result.metrics['safety.defect_rate']:.2%}")

运行前需要确认: - azure-ai-evaluation 包已安装(pip install azure-ai-evaluation)。 - 你在 Foundry 门户里已为 gpt-4o-minigpt-4o 分别创建了部署(Deployment)。 - model_config 中的 endpoint 替换成你自己的 Foundry endpoint URL。

决策逻辑:如果 gpt-4o-mini 在你的业务评测集上准确率只低 3%,但成本降 80%,那就该选 mini——评测数据替你做了取舍。

成本优化:从定价表到实际 Token 消耗的闭环

Foundry 在成本侧做了三件事:

  1. 透明定价:模型目录里直接展示每百万 token 的输入/输出价格,不同部署类型(Standard / Global Standard / Provisioned)价格不同。
  2. 用量追踪:每个 Deployment 有独立的用量仪表盘,按天/小时粒度展示 token 消耗和费用。
  3. Provisioned throughput:对高并发场景,可以预留算力(PTU),获得固定吞吐和更稳定的单 token 成本。

一个实用的成本监控脚本——每天拉取 token 用量并推到你的告警系统:

# 查询指定部署过去 7 天的 token 消耗与费用
az ml usage list \
  --resource-group myRG \
  --workspace myFoundry \
  --deployment-name gpt4o-mini-deploy \
  --interval daily \
  --start-date 2025-01-01 \
  --end-date 2025-01-07 \
  --query "[].{Date:date, InputTokens:input_tokens, OutputTokens:output_tokens, CostUSD:cost}" -o table

实操建议: - 优先用 Global Standard 部署(价格通常比 Standard 低 30-50%,适合非实时场景)。 - 对延迟敏感的实时接口用 Provisioned,但要先算好 PTU 数量——买多了闲置成本很高。 - 在应用层做 token 预估和截断:长对话场景加 max_tokens 限制,避免一个请求烧掉几千 token。

治理与合规:让模型上线有审计轨迹

Foundry 的治理能力覆盖三个层面:

  • 访问控制:每个 Deployment 可以绑定 Azure RBAC,限定哪些团队/服务账号能调用。
  • 内容过滤:内置 Content Safety 过滤器,可配置严重程度阈值,对仇恨、性内容、暴力等类别自动拦截。
  • 审计日志:所有推理请求和响应自动记录到 Azure Monitor,可对接 Log Analytics 做自定义查询。

一个典型的 RBAC 配置——只允许后端服务账号调用,禁止个人直接访问:

# 给后端服务的 managed identity 赋予调用权限
az role assignment create \
  --assignee "my-backend-app" \
  --role "Azure AI Developer" \
  --scope "/subscriptions/<sub>/resourceGroups/myRG/providers/Microsoft.MachineLearningServices/workspaces/myFoundry/onlineEndpoints/gpt4o-mini-deploy"

# 移除个人用户的直接调用权限
az role assignment delete \
  --assignee "user@company.com" \
  --role "Azure AI Developer" \
  --scope "/subscriptions/<sub>/resourceGroups/myRG/providers/Microsoft.MachineLearningServices/workspaces/myFoundry/onlineEndpoints/gpt4o-mini-deploy"

内容过滤器的配置可以在 Foundry 门户的 Deployment 设置里调整,也可以通过 REST API 更新——比如把"暴力内容"的阈值从 Medium 调到 High,适合面向未成年用户的产品。

上线 Checklist

把模型从实验推到生产之前,过一遍这张清单:

检查项 具体动作
模型选择 在业务评测集上横向对比 ≥ 2 个候选模型,记录准确率与成本比值
成本基线 用 Global Standard 部署跑一周,确认日均费用在预算内
延迟基线 用 P50/P95 延迟数据确认满足 SLA;不满足则切换 Provisioned
内容安全 配置 Content Safety 过滤器,跑内置安全评测集确认拦截率
RBAC 限制调用方为指定服务账号,禁止个人直接访问
监控 接入 Azure Monitor,设置 token 消耗突增和错误率告警
回退方案 保留一个备用模型部署,主模型异常时自动降级

Foundry 不是帮你"调一下 API"的工具,而是让团队在模型选型、质量验证、成本控制和合规治理上形成可复现、可审计的流程。当你的 AI 服务从 1 个模型扩展到 5 个、从 100 QPS 涨到 10000 QPS 时,这些流程才是真正省时间、省钱的底层支撑。


相关推荐