Anthropic 发布托管 Agent、主动式工作流与能力阶梯曲线——Code with Claude 2026 要点与实践

预计阅读时间：11 分钟

Anthropic 在旧金山举办的 "Code with Claude 2026" 活动上，一口气抛出三个方向性更新：托管 Agent 让开发者不再自己搭基础设施跑长任务；主动式工作流让 Claude 从"等指令"变成"推进度"；能力阶梯曲线则试图把模型升级从模糊的"更强了"变成可预期的工程参数。GitHub、Vercel 和一批 AI-native 团队也分享了各自的工程策略。下面逐项拆开看，并给出可以直接跑的代码示例。

托管 Agent：把长任务交给 Anthropic 的基础设施

过去用 Claude 做多步 Agent，开发者要自己写循环、管状态、处理超时和重试。托管 Agent 把这些收进平台侧——你提交一个任务描述和工具定义，Anthropic 的运行环境负责调度执行、维护上下文、在步骤间自动恢复。

核心变化：

任务提交即运行：不再需要客户端轮询，Agent 在 Anthropic 侧持续执行。
内置工具沙箱：文件读写、Shell 命令、Git 操作在受控环境中完成，开发者声明权限而非搭建环境。
状态持久化：长时间任务（重构整个仓库、跨文件搜索+修改）不会因为客户端断连而丢失进度。

实际影响：对于需要 Claude 连续操作几十分钟的任务——比如"给这个 monorepo 所有 package 加 TypeScript strict 模式"——托管 Agent 比自建循环可靠得多，也省掉了本地跑 Claude Code 时对机器资源的占用。

主动式工作流：Claude 不再只等你说什么才做什么

传统交互是"用户提问 → 模型回答"。主动式工作流让 Claude 在拿到任务后，自行判断下一步该做什么：读代码、跑测试、发现问题、提出修改，然后继续推进，直到任务完成或需要人类确认关键决策。

工作流的三种触发模式：

模式	行为	适用场景
On-demand	用户显式触发，Agent 执行后汇报	单次明确任务
Proactive	Agent 检测到变化（新 commit、CI 失败）后自动介入	持续集成守护
Interactive	Agent 推进到决策点时暂停，请求人类确认	高风险修改

Vercel 在分享中提到，他们用类似模式让 AI 在部署流水线中自动处理低风险回滚，只在影响生产流量时才拉人确认。这和 Anthropic 的设计思路一致：把"什么时候该停下来问人"变成可配置的策略，而不是靠开发者手动插 checkpoint。

能力阶梯曲线：模型升级变成可读的工程参数

"能力阶梯"是这次活动里最概念性的部分，但对工程决策影响最深远。Anthropic 把模型能力不再只描述为"更聪明"，而是拆成一条阶梯曲线——每一级对应具体的能力边界：哪级能可靠做单文件重构，哪级能跨 repo 理解依赖图，哪级能自主完成端到端功能开发。

对开发者的意义：

选模型有据可依：不再凭感觉选 opus 还是 sonnet，而是看任务落在哪级能力阶梯上。
升级预期可量化：新模型发布时，你能看到它把哪些之前不可靠的操作推到了新阶梯，而不是笼统的 benchmark 分数。
架构设计有锚点：产品里哪些流程交给 AI、哪些必须人控，可以对照阶梯曲线做决策，而不是事后补救。

GitHub 的工程团队提到，他们在 Copilot 的迭代中也在做类似分级——不同复杂度的建议用不同能力档位生成，避免高成本模型处理简单补全、低能力模型处理架构决策。Anthropic 把这个思路正式化成平台级概念。

实践：用托管 Agent + 主动工作流跑一个代码审查任务

下面是一个可以直接运行的示例，展示如何通过 Anthropic API 提交一个托管 Agent 任务，让 Claude 主动审查仓库中的最近提交、发现问题并提交修复建议。

前提：你需要有 Anthropic API key，且已安装 anthropic Python SDK（pip install anthropic）。托管 Agent API 的端点和参数以当前公开信息为基础，具体字段名可能在正式发布时有调整——运行前请对照最新文档确认。

import anthropic
import os

client = anthropic.Anthropic(api_key=os.environ["ANTHROPIC_API_KEY"])

# 定义 Agent 可用的工具——这里用文件读写和 git 操作
tools = [
    {
        "name": "read_file",
        "description": "Read the contents of a file in the repository",
        "input_schema": {
            "type": "object",
            "properties": {
                "path": {"type": "string", "description": "Relative file path"}
            },
            "required": ["path"]
        }
    },
    {
        "name": "run_git",
        "description": "Run a git command in the repository sandbox",
        "input_schema": {
            "type": "object",
            "properties": {
                "command": {"type": "string", "description": "Git command, e.g. 'log --oneline -5'"}
            },
            "required": ["command"]
        }
    },
    {
        "name": "write_file",
        "description": "Write or patch a file in the repository",
        "input_schema": {
            "type": "object",
            "properties": {
                "path": {"type": "string"},
                "content": {"type": "string"}
            },
            "required": ["path", "content"]
        }
    }
]

# 提交托管 Agent 任务
# proactive_mode: "interactive" 表示遇到高风险修改时暂停请求确认
response = client.beta.agents.create(
    name="recent-commits-reviewer",
    model="claude-sonnet-4-20250514",  # 按能力阶梯选合适档位
    prompt=(
        "审查本仓库最近 5 个 commit 引入的变更。"
        "对每个 commit：1) 用 run_git 查看diff；2) 用 read_file 读相关源码上下文；"
        "3) 判断是否有 bug、风格问题或遗漏的测试。"
        "如果发现可自动修复的问题，用 write_file 提交修改并说明理由。"
        "如果修改涉及公共 API 或生产配置，暂停并请求确认。"
    ),
    tools=tools,
    proactive_mode="interactive",  # on-demand / proactive / interactive
    timeout_minutes=30,
)

print(f"Agent ID: {response.id}")
print(f"Status: {response.status}")
print(f"查看进度: https://console.anthropic.com/agents/{response.id}")

运行后，Agent 在 Anthropic 侧执行。你可以通过 API 或控制台查看进度。proactive_mode="interactive" 确保涉及公共 API 的修改不会静默提交——Agent 会暂停并返回一个确认请求，你回复后才继续。

如果想让 Agent 在 CI 失败时自动触发（Proactive 模式），可以配合 webhook：

# 在 GitHub Actions 中，测试失败时调用 Anthropic webhook 触发 Agent
curl -X POST https://api.anthropic.com/v1/beta/agents/webhooks \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "content-type: application/json" \
  -d '{
    "agent_id": "recent-commits-reviewer",
    "trigger": {
      "type": "ci_failure",
      "repo": "my-org/my-project",
      "branch": "main",
      "commit_sha": "$GITHUB_SHA"
    }
  }'

这样每次 CI 红了，Agent 自动介入分析失败原因并尝试修复——低风险改动直接推，高风险改动拉人确认。

采纳建议与取舍

决策点	建议	注意事项
是否迁移到托管 Agent	长任务（>5 分钟、多步骤）优先迁移	短任务（单次问答）没必要，自建循环更灵活
选哪种 proactive 模式	生产环境用 `interactive`；内部工具用 `proactive`	`proactive` 模式下 Agent 可能静默提交，需设权限边界
按能力阶梯选模型	单文件任务用 sonnet 级；跨 repo 任务用 opus 级	阶梯曲线还在早期，具体边界需自己验证
Agent 权限范围	先只给读权限，验证稳定后再开写和 git	托管环境有沙箱，但写操作仍可能影响真实仓库

最后一点：能力阶梯曲线目前更多是概念框架，具体分级参数还没完全公开。建议在自己的项目里做小规模对照实验——同一个任务分别用不同档位模型跑，记录成功率和成本，建立你自己的内部阶梯表。等 Anthropic 发布正式分级文档后，再对齐调整。