团队拿到 GPT-4o 的 API key 之后,故事并没有结束。模型选哪个、推理成本怎么压、输出质量怎么量化和守住、多模型怎么统一治理——这些问题才是 AI 从"能跑"到"能运营"的真正门槛。Azure AI Foundry 把这些环节串成了一条完整链路:从模型目录筛选、基准评测、成本追踪,到部署上线后的监控与合规治理,开发者可以在一个平台里闭环完成。
下面拆开每个环节,讲清楚 Foundry 做了什么,以及你可以在项目中怎么落地。
模型选择:不只是"谁最强",而是"谁最合适"
Foundry 的模型目录(Model Catalog)收录了 OpenAI 系列、Meta Llama、Mistral、Cohere 等上百个模型,每个模型附带能力标签、上下文窗口、定价等元数据。关键操作不是挑最贵的,而是按场景匹配:
- 短文本分类 / 摘要:GPT-4o-mini 或 Llama 3 8B 通常够用,成本只有 GPT-4o 的十分之一。
- 长文档理解:需要大上下文窗口,优先看 128K 级别的模型。
- 多模态输入:选带 vision 能力的模型,如 GPT-4o 或 Llama 3.2-Vision。
在 Foundry 门户里可以直接按任务类型、模态、价格区间过滤。如果你习惯 CLI,也可以用 az 命令快速列出:
# 列出当前可用模型及其定价信息
az ml model list --resource-group myRG --workspace myFoundry \
--query "[].{Name:name, Task:task, Price:pricing}" -o table
实际项目中更推荐的做法:先跑基准评测再拍板,而不是凭直觉选模型。
评测与质量把控:用基准数据集量化"好不好"
Foundry 提供了内置的评测流水线(Evaluation Pipeline),支持你用标准数据集或自定义数据集对多个模型做横向对比。评测维度包括:
- 准确率 / F1:分类、抽取类任务。
- BLEU / ROUGE:生成类任务。
- 安全与偏见指标:内置 Responsible AI 评测集。
- 自定义业务指标:比如"回答是否包含关键步骤"这种结构化评判。
下面是一个用 Python SDK 跑评测的完整示例——假设你已经在 Foundry 里创建了 workspace endpoint:
from azure.ai.evaluation import Evaluate, QAEvaluator, ContentSafetyEvaluator
# 1. 准备评测数据(JSONL 格式,每行一条 query + ground_truth)
eval_data = [
{"query": "如何重置密码?", "ground_truth": "点击登录页'忘记密码'链接,输入注册邮箱,按邮件指引操作。"},
{"query": "退货流程是什么?", "ground_truth": "在订单详情页点击'申请退货',选择原因,等待审核通过后寄回商品。"},
]
# 2. 配置评测器组合
evaluators = {
"qa": QAEvaluator(model_config={"model": "gpt-4o", "endpoint": "https://my-foundry.cognitiveservices.azure.com"}),
"safety": ContentSafetyEvaluator(model_config={"model": "gpt-4o", "endpoint": "https://my-foundry.cognitiveservices.azure.com"}),
}
# 3. 对两个候选模型分别跑评测
for model_name in ["gpt-4o-mini", "gpt-4o"]:
result = Evaluate(
evaluators=evaluators,
evaluation_data=eval_data,
target_model=model_name, # Foundry 会自动路由到对应部署
target_endpoint="https://my-foundry.cognitiveservices.azure.com",
)
print(f"=== {model_name} 评测结果 ===")
print(f"QA 准确率: {result.metrics['qa.accuracy']:.2%}")
print(f"安全风险率: {result.metrics['safety.defect_rate']:.2%}")
运行前需要确认:
- azure-ai-evaluation 包已安装(pip install azure-ai-evaluation)。
- 你在 Foundry 门户里已为 gpt-4o-mini 和 gpt-4o 分别创建了部署(Deployment)。
- model_config 中的 endpoint 替换成你自己的 Foundry endpoint URL。
决策逻辑:如果 gpt-4o-mini 在你的业务评测集上准确率只低 3%,但成本降 80%,那就该选 mini——评测数据替你做了取舍。
成本优化:从定价表到实际 Token 消耗的闭环
Foundry 在成本侧做了三件事:
- 透明定价:模型目录里直接展示每百万 token 的输入/输出价格,不同部署类型(Standard / Global Standard / Provisioned)价格不同。
- 用量追踪:每个 Deployment 有独立的用量仪表盘,按天/小时粒度展示 token 消耗和费用。
- Provisioned throughput:对高并发场景,可以预留算力(PTU),获得固定吞吐和更稳定的单 token 成本。
一个实用的成本监控脚本——每天拉取 token 用量并推到你的告警系统:
# 查询指定部署过去 7 天的 token 消耗与费用
az ml usage list \
--resource-group myRG \
--workspace myFoundry \
--deployment-name gpt4o-mini-deploy \
--interval daily \
--start-date 2025-01-01 \
--end-date 2025-01-07 \
--query "[].{Date:date, InputTokens:input_tokens, OutputTokens:output_tokens, CostUSD:cost}" -o table
实操建议:
- 优先用 Global Standard 部署(价格通常比 Standard 低 30-50%,适合非实时场景)。
- 对延迟敏感的实时接口用 Provisioned,但要先算好 PTU 数量——买多了闲置成本很高。
- 在应用层做 token 预估和截断:长对话场景加 max_tokens 限制,避免一个请求烧掉几千 token。
治理与合规:让模型上线有审计轨迹
Foundry 的治理能力覆盖三个层面:
- 访问控制:每个 Deployment 可以绑定 Azure RBAC,限定哪些团队/服务账号能调用。
- 内容过滤:内置 Content Safety 过滤器,可配置严重程度阈值,对仇恨、性内容、暴力等类别自动拦截。
- 审计日志:所有推理请求和响应自动记录到 Azure Monitor,可对接 Log Analytics 做自定义查询。
一个典型的 RBAC 配置——只允许后端服务账号调用,禁止个人直接访问:
# 给后端服务的 managed identity 赋予调用权限
az role assignment create \
--assignee "my-backend-app" \
--role "Azure AI Developer" \
--scope "/subscriptions/<sub>/resourceGroups/myRG/providers/Microsoft.MachineLearningServices/workspaces/myFoundry/onlineEndpoints/gpt4o-mini-deploy"
# 移除个人用户的直接调用权限
az role assignment delete \
--assignee "user@company.com" \
--role "Azure AI Developer" \
--scope "/subscriptions/<sub>/resourceGroups/myRG/providers/Microsoft.MachineLearningServices/workspaces/myFoundry/onlineEndpoints/gpt4o-mini-deploy"
内容过滤器的配置可以在 Foundry 门户的 Deployment 设置里调整,也可以通过 REST API 更新——比如把"暴力内容"的阈值从 Medium 调到 High,适合面向未成年用户的产品。
上线 Checklist
把模型从实验推到生产之前,过一遍这张清单:
| 检查项 | 具体动作 |
|---|---|
| 模型选择 | 在业务评测集上横向对比 ≥ 2 个候选模型,记录准确率与成本比值 |
| 成本基线 | 用 Global Standard 部署跑一周,确认日均费用在预算内 |
| 延迟基线 | 用 P50/P95 延迟数据确认满足 SLA;不满足则切换 Provisioned |
| 内容安全 | 配置 Content Safety 过滤器,跑内置安全评测集确认拦截率 |
| RBAC | 限制调用方为指定服务账号,禁止个人直接访问 |
| 监控 | 接入 Azure Monitor,设置 token 消耗突增和错误率告警 |
| 回退方案 | 保留一个备用模型部署,主模型异常时自动降级 |
Foundry 不是帮你"调一下 API"的工具,而是让团队在模型选型、质量验证、成本控制和合规治理上形成可复现、可审计的流程。当你的 AI 服务从 1 个模型扩展到 5 个、从 100 QPS 涨到 10000 QPS 时,这些流程才是真正省时间、省钱的底层支撑。