Anthropic 发布托管 Agent、主动式工作流与能力阶梯曲线——Code with Claude 2026 要点与实践

2026-05-18 20 预计阅读时间:1 分钟
来源:infoq.com AI 摘要 原文链接

免责声明:本文为 AI 摘要整理,建议结合原文阅读。摘要可能省略上下文、版本差异或边界条件,不作为官方说明。

预计阅读时间:11 分钟

Anthropic 在旧金山举办的 "Code with Claude 2026" 活动上,一口气抛出三个方向性更新:托管 Agent 让开发者不再自己搭基础设施跑长任务;主动式工作流让 Claude 从"等指令"变成"推进度";能力阶梯曲线则试图把模型升级从模糊的"更强了"变成可预期的工程参数。GitHub、Vercel 和一批 AI-native 团队也分享了各自的工程策略。下面逐项拆开看,并给出可以直接跑的代码示例。

托管 Agent:把长任务交给 Anthropic 的基础设施

过去用 Claude 做多步 Agent,开发者要自己写循环、管状态、处理超时和重试。托管 Agent 把这些收进平台侧——你提交一个任务描述和工具定义,Anthropic 的运行环境负责调度执行、维护上下文、在步骤间自动恢复。

核心变化:

  • 任务提交即运行:不再需要客户端轮询,Agent 在 Anthropic 侧持续执行。
  • 内置工具沙箱:文件读写、Shell 命令、Git 操作在受控环境中完成,开发者声明权限而非搭建环境。
  • 状态持久化:长时间任务(重构整个仓库、跨文件搜索+修改)不会因为客户端断连而丢失进度。

实际影响:对于需要 Claude 连续操作几十分钟的任务——比如"给这个 monorepo 所有 package 加 TypeScript strict 模式"——托管 Agent 比自建循环可靠得多,也省掉了本地跑 Claude Code 时对机器资源的占用。

主动式工作流:Claude 不再只等你说什么才做什么

传统交互是"用户提问 → 模型回答"。主动式工作流让 Claude 在拿到任务后,自行判断下一步该做什么:读代码、跑测试、发现问题、提出修改,然后继续推进,直到任务完成或需要人类确认关键决策。

工作流的三种触发模式:

模式 行为 适用场景
On-demand 用户显式触发,Agent 执行后汇报 单次明确任务
Proactive Agent 检测到变化(新 commit、CI 失败)后自动介入 持续集成守护
Interactive Agent 推进到决策点时暂停,请求人类确认 高风险修改

Vercel 在分享中提到,他们用类似模式让 AI 在部署流水线中自动处理低风险回滚,只在影响生产流量时才拉人确认。这和 Anthropic 的设计思路一致:把"什么时候该停下来问人"变成可配置的策略,而不是靠开发者手动插 checkpoint。

能力阶梯曲线:模型升级变成可读的工程参数

"能力阶梯"是这次活动里最概念性的部分,但对工程决策影响最深远。Anthropic 把模型能力不再只描述为"更聪明",而是拆成一条阶梯曲线——每一级对应具体的能力边界:哪级能可靠做单文件重构,哪级能跨 repo 理解依赖图,哪级能自主完成端到端功能开发。

对开发者的意义:

  • 选模型有据可依:不再凭感觉选 opus 还是 sonnet,而是看任务落在哪级能力阶梯上。
  • 升级预期可量化:新模型发布时,你能看到它把哪些之前不可靠的操作推到了新阶梯,而不是笼统的 benchmark 分数。
  • 架构设计有锚点:产品里哪些流程交给 AI、哪些必须人控,可以对照阶梯曲线做决策,而不是事后补救。

GitHub 的工程团队提到,他们在 Copilot 的迭代中也在做类似分级——不同复杂度的建议用不同能力档位生成,避免高成本模型处理简单补全、低能力模型处理架构决策。Anthropic 把这个思路正式化成平台级概念。

实践:用托管 Agent + 主动工作流跑一个代码审查任务

下面是一个可以直接运行的示例,展示如何通过 Anthropic API 提交一个托管 Agent 任务,让 Claude 主动审查仓库中的最近提交、发现问题并提交修复建议。

前提:你需要有 Anthropic API key,且已安装 anthropic Python SDK(pip install anthropic)。托管 Agent API 的端点和参数以当前公开信息为基础,具体字段名可能在正式发布时有调整——运行前请对照最新文档确认。

import anthropic
import os

client = anthropic.Anthropic(api_key=os.environ["ANTHROPIC_API_KEY"])

# 定义 Agent 可用的工具——这里用文件读写和 git 操作
tools = [
    {
        "name": "read_file",
        "description": "Read the contents of a file in the repository",
        "input_schema": {
            "type": "object",
            "properties": {
                "path": {"type": "string", "description": "Relative file path"}
            },
            "required": ["path"]
        }
    },
    {
        "name": "run_git",
        "description": "Run a git command in the repository sandbox",
        "input_schema": {
            "type": "object",
            "properties": {
                "command": {"type": "string", "description": "Git command, e.g. 'log --oneline -5'"}
            },
            "required": ["command"]
        }
    },
    {
        "name": "write_file",
        "description": "Write or patch a file in the repository",
        "input_schema": {
            "type": "object",
            "properties": {
                "path": {"type": "string"},
                "content": {"type": "string"}
            },
            "required": ["path", "content"]
        }
    }
]

# 提交托管 Agent 任务
# proactive_mode: "interactive" 表示遇到高风险修改时暂停请求确认
response = client.beta.agents.create(
    name="recent-commits-reviewer",
    model="claude-sonnet-4-20250514",  # 按能力阶梯选合适档位
    prompt=(
        "审查本仓库最近 5 个 commit 引入的变更。"
        "对每个 commit:1) 用 run_git 查看diff;2) 用 read_file 读相关源码上下文;"
        "3) 判断是否有 bug、风格问题或遗漏的测试。"
        "如果发现可自动修复的问题,用 write_file 提交修改并说明理由。"
        "如果修改涉及公共 API 或生产配置,暂停并请求确认。"
    ),
    tools=tools,
    proactive_mode="interactive",  # on-demand / proactive / interactive
    timeout_minutes=30,
)

print(f"Agent ID: {response.id}")
print(f"Status: {response.status}")
print(f"查看进度: https://console.anthropic.com/agents/{response.id}")

运行后,Agent 在 Anthropic 侧执行。你可以通过 API 或控制台查看进度。proactive_mode="interactive" 确保涉及公共 API 的修改不会静默提交——Agent 会暂停并返回一个确认请求,你回复后才继续。

如果想让 Agent 在 CI 失败时自动触发(Proactive 模式),可以配合 webhook:

# 在 GitHub Actions 中,测试失败时调用 Anthropic webhook 触发 Agent
curl -X POST https://api.anthropic.com/v1/beta/agents/webhooks \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "content-type: application/json" \
  -d '{
    "agent_id": "recent-commits-reviewer",
    "trigger": {
      "type": "ci_failure",
      "repo": "my-org/my-project",
      "branch": "main",
      "commit_sha": "$GITHUB_SHA"
    }
  }'

这样每次 CI 红了,Agent 自动介入分析失败原因并尝试修复——低风险改动直接推,高风险改动拉人确认。

采纳建议与取舍

决策点 建议 注意事项
是否迁移到托管 Agent 长任务(>5 分钟、多步骤)优先迁移 短任务(单次问答)没必要,自建循环更灵活
选哪种 proactive 模式 生产环境用 interactive;内部工具用 proactive proactive 模式下 Agent 可能静默提交,需设权限边界
按能力阶梯选模型 单文件任务用 sonnet 级;跨 repo 任务用 opus 级 阶梯曲线还在早期,具体边界需自己验证
Agent 权限范围 先只给读权限,验证稳定后再开写和 git 托管环境有沙箱,但写操作仍可能影响真实仓库

最后一点:能力阶梯曲线目前更多是概念框架,具体分级参数还没完全公开。建议在自己的项目里做小规模对照实验——同一个任务分别用不同档位模型跑,记录成功率和成本,建立你自己的内部阶梯表。等 Anthropic 发布正式分级文档后,再对齐调整。


相关推荐