Karpathy 入局 Anthropic：LLM 研发下一阶段的信号与实操

预计阅读时间：10 分钟

2026年5月19日，Andrej Karpathy 在 X 上宣布加入 Anthropic，一条推文炸出了 1.5 万次转发、近 1600 万次浏览。这不是普通的人事变动——Karpathy 是 Tesla Autopilot 的前负责人、OpenAI 的创始成员之一，也是 YouTube 上最硬核的 LLM 教学作者。他选择 Anthropic 而不是回到 OpenAI，本身就是一个值得拆解的技术决策。

为什么是 Anthropic，而不是 OpenAI

Karpathy 在推文中用了"关键成形期"来形容接下来几年。这个措辞很精确：LLM 的基础架构（Transformer、MoE、RLHF）已经收敛，但如何让模型真正可靠、可控、可对齐，还远没有定论。

Anthropic 在这个方向上有三个差异化的技术押注：

Constitutional AI（CAI）：用一套显式的"宪法"规则替代纯人类标注的 RLHF，让模型自己生成批评并修正输出。这降低了标注成本，也让对齐过程更可审计。
Mechanistic Interpretability：Anthropic 的研究团队（Chris Olah 等人）一直在做模型内部电路的逆向工程——把神经网络当电路图来读，而不是当黑箱来调。2024 年他们开源了 CircuitTracer，2025 年又发布了面向 Claude 内部特征的字典学习工具。
长上下文与工具使用：Claude 在 200K token 上下文窗口上的工程实现，以及近期在 agent 式多步推理上的推进，都是 Anthropic 在"模型不只是聊天机器人"这条路上的具体产出。

Karpathy 的教学视频里反复强调一个观点：理解 LLM 的内部运作比堆参数更重要。这和 Anthropic 的 interpretability 路线高度吻合。他选择 Anthropic，大概率不是去调更大的模型，而是去搞清楚模型在做什么、为什么这么做。

从 Karpathy 的历史轨迹看下一步

回顾 Karpathy 过去五年的公开产出，有一条清晰的线索：

时间段	角色	核心产出
2015–2017	OpenAI 研究员	基础 CV/RL 研究，早期 GPT 团队成员
2017–2022	Tesla AI Director	Autopilot 视觉系统，从代码到量产
2022–2023	OpenAI 研究员	GPT-4 训练与评估核心成员
2023–2025	独立创作者	nanoGPT、llm.c、系列教学视频
2026	Anthropic	—

nanoGPT 和 llm.c 是关键信号。这两个项目都在做同一件事：把 LLM 训练的最小可行路径压到极简。nanoGPT 用 300 行 Python 训练 GPT-2；llm.c 用纯 C 实现前向和反向传播，绕过 PyTorch 的抽象层。Karpathy 显然认为，当前框架的复杂度正在掩盖真正需要理解的东西。

到了 Anthropic，他大概率会继续这个方向——但对象不再是训练流程本身，而是训练出来的模型内部结构。Anthropic 的 interpretability 团队已经用字典学习从 Claude 中提取了数百万个可解释的特征；Karpathy 的工程极简主义可能会让这些工具变得更易用、更可复现。

实操：用 Anthropic SDK 调用 Claude 并接入 Constitutional AI 式的自评流程

Karpathy 加入 Anthropic，意味着更多人会开始认真看 Anthropic 的技术栈。下面是一个可以直接跑的示例：用 Anthropic Python SDK 调用 Claude，并实现一个简化版的 Constitutional AI 自评循环——让模型先生成回答，再根据预设原则自我批评并修正。

先安装 SDK：

pip install anthropic

设置 API Key（从 console.anthropic.com 获取）：

export ANTHROPIC_API_KEY="sk-ant-xxxxx"

然后运行以下脚本：

import anthropic

client = anthropic.Anthropic()

PRINCIPLES = [
    "回答应当基于事实，不编造不存在的信息。",
    "如果不确定，应当明确承认不确定性，而不是猜测。",
    "回答应当简洁直接，避免不必要的冗长。",
]

def generate_response(question: str) -> str:
    message = client.messages.create(
        model="claude-sonnet-4-20250514",
        max_tokens=1024,
        messages=[{"role": "user", "content": question}],
    )
    return message.content[0].text

def self_critique(question: str, response: str) -> str:
    critique_prompt = (
        f"你刚才回答了以下问题：\n问题：{question}\n回答：{response}\n\n"
        f"请根据以下原则审视你的回答：\n"
        + "\n".join(f"- {p}" for p in PRINCIPLES)
        + "\n\n请指出回答中违反原则的地方，并给出修正建议。"
    )
    message = client.messages.create(
        model="claude-sonnet-4-20250514",
        max_tokens=512,
        messages=[{"role": "user", "content": critique_prompt}],
    )
    return message.content[0].text

def revise_response(question: str, original: str, critique: str) -> str:
    revise_prompt = (
        f"问题：{question}\n原始回答：{original}\n批评：{critique}\n\n"
        f"请根据批评修正你的回答，确保符合上述原则。只输出修正后的回答。"
    )
    message = client.messages.create(
        model="claude-sonnet-4-20250514",
        max_tokens=1024,
        messages=[{"role": "user", "content": revise_prompt}],
    )
    return message.content[0].text

def constitutional_loop(question: str) -> dict:
    """简化版 Constitutional AI：生成 → 自评 → 修正"""
    original = generate_response(question)
    critique = self_critique(question, original)
    revised = revise_response(question, original, critique)
    return {
        "question": question,
        "original": original,
        "critique": critique,
        "revised": revised,
    }

# 测试一个容易触发幻觉的问题
result = constitutional_loop("量子计算机目前能破解 RSA-2048 吗？")

print("=" * 60)
print("【原始回答】")
print(result["original"])
print("=" * 60)
print("【自我批评】")
print(result["critique"])
print("=" * 60)
print("【修正后回答】")
print(result["revised"])

运行前确保 ANTHROPIC_API_KEY 已设置，且账户有可用额度。这个三步循环（生成→批评→修正）就是 Anthropic Constitutional AI 论文核心流程的简化版。实际生产中 Anthropic 会用更复杂的宪法规则集和多次迭代，但这个骨架足以理解 CAI 的运作方式。

如果你想进一步实验，可以修改 PRINCIPLES 列表——比如加入"回答应当包含可验证的来源"或"应当区分共识与争议"——观察修正行为的变化。

这件事对从业者的实际影响

Karpathy 的去向不是一个八卦话题，它指向几个具体的行动建议：

如果你在做 LLM 应用开发：Anthropic 的 API 和开源工具值得认真评估。CircuitTracer 和字典学习工具虽然还偏研究阶段，但已经可以用来分析你自己训练的小模型。Karpathy 入局后，这类工具的工程化程度大概率会快速提升。

如果你在做模型训练：Karpathy 的 llm.c 证明了纯 C 实现可以比 PyTorch 快数倍。如果你在推训练吞吐量的极限，值得花时间看他的实现思路——尤其是手写反向传播和混合精度训练的部分。

如果你在做安全与对齐：Constitutional AI 的自评流程比纯人类标注更可扩展。上面的示例脚本是一个起点，你可以把它嵌入到自己的评测管线中，作为生成前的自动过滤层。

风险提示：Anthropic 的 interpretability 工具目前主要适配自家模型架构，迁移到其他架构需要额外工作。CAI 的自评循环依赖模型自身的批评能力——如果模型本身对某些原则缺乏敏感度，自评会失效，这和人类标注的盲区是同一类问题，只是换了主体。

Karpathy 说"未来几年是关键成形期"。成形意味着方向还没锁死——训练范式、对齐方法、模型可解释性，每一块都可能被重新定义。他选了 Anthropic，本质上是选了"理解模型内部"这条路线。对从业者来说，现在开始熟悉 Anthropic 的技术栈和 interpretability 工具，不是跟风，是在下一个成形期到来前先占好位置。

Karpathy 入局 Anthropic：LLM 研发下一阶段的信号与实操

为什么是 Anthropic，而不是 OpenAI

从 Karpathy 的历史轨迹看下一步

实操：用 Anthropic SDK 调用 Claude 并接入 Constitutional AI 式的自评流程

这件事对从业者的实际影响

相关推荐

建议反馈