Anthropic 在旧金山举办的 "Code with Claude 2026" 活动上,一口气抛出三个方向性更新:托管 Agent 让开发者不再自己搭基础设施跑长任务;主动式工作流让 Claude 从"等指令"变成"推进度";能力阶梯曲线则试图把模型升级从模糊的"更强了"变成可预期的工程参数。GitHub、Vercel 和一批 AI-native 团队也分享了各自的工程策略。下面逐项拆开看,并给出可以直接跑的代码示例。
托管 Agent:把长任务交给 Anthropic 的基础设施
过去用 Claude 做多步 Agent,开发者要自己写循环、管状态、处理超时和重试。托管 Agent 把这些收进平台侧——你提交一个任务描述和工具定义,Anthropic 的运行环境负责调度执行、维护上下文、在步骤间自动恢复。
核心变化:
- 任务提交即运行:不再需要客户端轮询,Agent 在 Anthropic 侧持续执行。
- 内置工具沙箱:文件读写、Shell 命令、Git 操作在受控环境中完成,开发者声明权限而非搭建环境。
- 状态持久化:长时间任务(重构整个仓库、跨文件搜索+修改)不会因为客户端断连而丢失进度。
实际影响:对于需要 Claude 连续操作几十分钟的任务——比如"给这个 monorepo 所有 package 加 TypeScript strict 模式"——托管 Agent 比自建循环可靠得多,也省掉了本地跑 Claude Code 时对机器资源的占用。
主动式工作流:Claude 不再只等你说什么才做什么
传统交互是"用户提问 → 模型回答"。主动式工作流让 Claude 在拿到任务后,自行判断下一步该做什么:读代码、跑测试、发现问题、提出修改,然后继续推进,直到任务完成或需要人类确认关键决策。
工作流的三种触发模式:
| 模式 | 行为 | 适用场景 |
|---|---|---|
| On-demand | 用户显式触发,Agent 执行后汇报 | 单次明确任务 |
| Proactive | Agent 检测到变化(新 commit、CI 失败)后自动介入 | 持续集成守护 |
| Interactive | Agent 推进到决策点时暂停,请求人类确认 | 高风险修改 |
Vercel 在分享中提到,他们用类似模式让 AI 在部署流水线中自动处理低风险回滚,只在影响生产流量时才拉人确认。这和 Anthropic 的设计思路一致:把"什么时候该停下来问人"变成可配置的策略,而不是靠开发者手动插 checkpoint。
能力阶梯曲线:模型升级变成可读的工程参数
"能力阶梯"是这次活动里最概念性的部分,但对工程决策影响最深远。Anthropic 把模型能力不再只描述为"更聪明",而是拆成一条阶梯曲线——每一级对应具体的能力边界:哪级能可靠做单文件重构,哪级能跨 repo 理解依赖图,哪级能自主完成端到端功能开发。
对开发者的意义:
- 选模型有据可依:不再凭感觉选 opus 还是 sonnet,而是看任务落在哪级能力阶梯上。
- 升级预期可量化:新模型发布时,你能看到它把哪些之前不可靠的操作推到了新阶梯,而不是笼统的 benchmark 分数。
- 架构设计有锚点:产品里哪些流程交给 AI、哪些必须人控,可以对照阶梯曲线做决策,而不是事后补救。
GitHub 的工程团队提到,他们在 Copilot 的迭代中也在做类似分级——不同复杂度的建议用不同能力档位生成,避免高成本模型处理简单补全、低能力模型处理架构决策。Anthropic 把这个思路正式化成平台级概念。
实践:用托管 Agent + 主动工作流跑一个代码审查任务
下面是一个可以直接运行的示例,展示如何通过 Anthropic API 提交一个托管 Agent 任务,让 Claude 主动审查仓库中的最近提交、发现问题并提交修复建议。
前提:你需要有 Anthropic API key,且已安装 anthropic Python SDK(pip install anthropic)。托管 Agent API 的端点和参数以当前公开信息为基础,具体字段名可能在正式发布时有调整——运行前请对照最新文档确认。
import anthropic
import os
client = anthropic.Anthropic(api_key=os.environ["ANTHROPIC_API_KEY"])
# 定义 Agent 可用的工具——这里用文件读写和 git 操作
tools = [
{
"name": "read_file",
"description": "Read the contents of a file in the repository",
"input_schema": {
"type": "object",
"properties": {
"path": {"type": "string", "description": "Relative file path"}
},
"required": ["path"]
}
},
{
"name": "run_git",
"description": "Run a git command in the repository sandbox",
"input_schema": {
"type": "object",
"properties": {
"command": {"type": "string", "description": "Git command, e.g. 'log --oneline -5'"}
},
"required": ["command"]
}
},
{
"name": "write_file",
"description": "Write or patch a file in the repository",
"input_schema": {
"type": "object",
"properties": {
"path": {"type": "string"},
"content": {"type": "string"}
},
"required": ["path", "content"]
}
}
]
# 提交托管 Agent 任务
# proactive_mode: "interactive" 表示遇到高风险修改时暂停请求确认
response = client.beta.agents.create(
name="recent-commits-reviewer",
model="claude-sonnet-4-20250514", # 按能力阶梯选合适档位
prompt=(
"审查本仓库最近 5 个 commit 引入的变更。"
"对每个 commit:1) 用 run_git 查看diff;2) 用 read_file 读相关源码上下文;"
"3) 判断是否有 bug、风格问题或遗漏的测试。"
"如果发现可自动修复的问题,用 write_file 提交修改并说明理由。"
"如果修改涉及公共 API 或生产配置,暂停并请求确认。"
),
tools=tools,
proactive_mode="interactive", # on-demand / proactive / interactive
timeout_minutes=30,
)
print(f"Agent ID: {response.id}")
print(f"Status: {response.status}")
print(f"查看进度: https://console.anthropic.com/agents/{response.id}")
运行后,Agent 在 Anthropic 侧执行。你可以通过 API 或控制台查看进度。proactive_mode="interactive" 确保涉及公共 API 的修改不会静默提交——Agent 会暂停并返回一个确认请求,你回复后才继续。
如果想让 Agent 在 CI 失败时自动触发(Proactive 模式),可以配合 webhook:
# 在 GitHub Actions 中,测试失败时调用 Anthropic webhook 触发 Agent
curl -X POST https://api.anthropic.com/v1/beta/agents/webhooks \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "content-type: application/json" \
-d '{
"agent_id": "recent-commits-reviewer",
"trigger": {
"type": "ci_failure",
"repo": "my-org/my-project",
"branch": "main",
"commit_sha": "$GITHUB_SHA"
}
}'
这样每次 CI 红了,Agent 自动介入分析失败原因并尝试修复——低风险改动直接推,高风险改动拉人确认。
采纳建议与取舍
| 决策点 | 建议 | 注意事项 |
|---|---|---|
| 是否迁移到托管 Agent | 长任务(>5 分钟、多步骤)优先迁移 | 短任务(单次问答)没必要,自建循环更灵活 |
| 选哪种 proactive 模式 | 生产环境用 interactive;内部工具用 proactive |
proactive 模式下 Agent 可能静默提交,需设权限边界 |
| 按能力阶梯选模型 | 单文件任务用 sonnet 级;跨 repo 任务用 opus 级 | 阶梯曲线还在早期,具体边界需自己验证 |
| Agent 权限范围 | 先只给读权限,验证稳定后再开写和 git | 托管环境有沙箱,但写操作仍可能影响真实仓库 |
最后一点:能力阶梯曲线目前更多是概念框架,具体分级参数还没完全公开。建议在自己的项目里做小规模对照实验——同一个任务分别用不同档位模型跑,记录成功率和成本,建立你自己的内部阶梯表。等 Anthropic 发布正式分级文档后,再对齐调整。