2026年5月19日,Andrej Karpathy 在 X 上宣布加入 Anthropic,一条推文炸出了 1.5 万次转发、近 1600 万次浏览。这不是普通的人事变动——Karpathy 是 Tesla Autopilot 的前负责人、OpenAI 的创始成员之一,也是 YouTube 上最硬核的 LLM 教学作者。他选择 Anthropic 而不是回到 OpenAI,本身就是一个值得拆解的技术决策。
为什么是 Anthropic,而不是 OpenAI
Karpathy 在推文中用了"关键成形期"来形容接下来几年。这个措辞很精确:LLM 的基础架构(Transformer、MoE、RLHF)已经收敛,但如何让模型真正可靠、可控、可对齐,还远没有定论。
Anthropic 在这个方向上有三个差异化的技术押注:
- Constitutional AI(CAI):用一套显式的"宪法"规则替代纯人类标注的 RLHF,让模型自己生成批评并修正输出。这降低了标注成本,也让对齐过程更可审计。
- Mechanistic Interpretability:Anthropic 的研究团队(Chris Olah 等人)一直在做模型内部电路的逆向工程——把神经网络当电路图来读,而不是当黑箱来调。2024 年他们开源了 CircuitTracer,2025 年又发布了面向 Claude 内部特征的字典学习工具。
- 长上下文与工具使用:Claude 在 200K token 上下文窗口上的工程实现,以及近期在 agent 式多步推理上的推进,都是 Anthropic 在"模型不只是聊天机器人"这条路上的具体产出。
Karpathy 的教学视频里反复强调一个观点:理解 LLM 的内部运作比堆参数更重要。这和 Anthropic 的 interpretability 路线高度吻合。他选择 Anthropic,大概率不是去调更大的模型,而是去搞清楚模型在做什么、为什么这么做。
从 Karpathy 的历史轨迹看下一步
回顾 Karpathy 过去五年的公开产出,有一条清晰的线索:
| 时间段 | 角色 | 核心产出 |
|---|---|---|
| 2015–2017 | OpenAI 研究员 | 基础 CV/RL 研究,早期 GPT 团队成员 |
| 2017–2022 | Tesla AI Director | Autopilot 视觉系统,从代码到量产 |
| 2022–2023 | OpenAI 研究员 | GPT-4 训练与评估核心成员 |
| 2023–2025 | 独立创作者 | nanoGPT、llm.c、系列教学视频 |
| 2026 | Anthropic | — |
nanoGPT 和 llm.c 是关键信号。这两个项目都在做同一件事:把 LLM 训练的最小可行路径压到极简。nanoGPT 用 300 行 Python 训练 GPT-2;llm.c 用纯 C 实现前向和反向传播,绕过 PyTorch 的抽象层。Karpathy 显然认为,当前框架的复杂度正在掩盖真正需要理解的东西。
到了 Anthropic,他大概率会继续这个方向——但对象不再是训练流程本身,而是训练出来的模型内部结构。Anthropic 的 interpretability 团队已经用字典学习从 Claude 中提取了数百万个可解释的特征;Karpathy 的工程极简主义可能会让这些工具变得更易用、更可复现。
实操:用 Anthropic SDK 调用 Claude 并接入 Constitutional AI 式的自评流程
Karpathy 加入 Anthropic,意味着更多人会开始认真看 Anthropic 的技术栈。下面是一个可以直接跑的示例:用 Anthropic Python SDK 调用 Claude,并实现一个简化版的 Constitutional AI 自评循环——让模型先生成回答,再根据预设原则自我批评并修正。
先安装 SDK:
pip install anthropic
设置 API Key(从 console.anthropic.com 获取):
export ANTHROPIC_API_KEY="sk-ant-xxxxx"
然后运行以下脚本:
import anthropic
client = anthropic.Anthropic()
PRINCIPLES = [
"回答应当基于事实,不编造不存在的信息。",
"如果不确定,应当明确承认不确定性,而不是猜测。",
"回答应当简洁直接,避免不必要的冗长。",
]
def generate_response(question: str) -> str:
message = client.messages.create(
model="claude-sonnet-4-20250514",
max_tokens=1024,
messages=[{"role": "user", "content": question}],
)
return message.content[0].text
def self_critique(question: str, response: str) -> str:
critique_prompt = (
f"你刚才回答了以下问题:\n问题:{question}\n回答:{response}\n\n"
f"请根据以下原则审视你的回答:\n"
+ "\n".join(f"- {p}" for p in PRINCIPLES)
+ "\n\n请指出回答中违反原则的地方,并给出修正建议。"
)
message = client.messages.create(
model="claude-sonnet-4-20250514",
max_tokens=512,
messages=[{"role": "user", "content": critique_prompt}],
)
return message.content[0].text
def revise_response(question: str, original: str, critique: str) -> str:
revise_prompt = (
f"问题:{question}\n原始回答:{original}\n批评:{critique}\n\n"
f"请根据批评修正你的回答,确保符合上述原则。只输出修正后的回答。"
)
message = client.messages.create(
model="claude-sonnet-4-20250514",
max_tokens=1024,
messages=[{"role": "user", "content": revise_prompt}],
)
return message.content[0].text
def constitutional_loop(question: str) -> dict:
"""简化版 Constitutional AI:生成 → 自评 → 修正"""
original = generate_response(question)
critique = self_critique(question, original)
revised = revise_response(question, original, critique)
return {
"question": question,
"original": original,
"critique": critique,
"revised": revised,
}
# 测试一个容易触发幻觉的问题
result = constitutional_loop("量子计算机目前能破解 RSA-2048 吗?")
print("=" * 60)
print("【原始回答】")
print(result["original"])
print("=" * 60)
print("【自我批评】")
print(result["critique"])
print("=" * 60)
print("【修正后回答】")
print(result["revised"])
运行前确保 ANTHROPIC_API_KEY 已设置,且账户有可用额度。这个三步循环(生成→批评→修正)就是 Anthropic Constitutional AI 论文核心流程的简化版。实际生产中 Anthropic 会用更复杂的宪法规则集和多次迭代,但这个骨架足以理解 CAI 的运作方式。
如果你想进一步实验,可以修改 PRINCIPLES 列表——比如加入"回答应当包含可验证的来源"或"应当区分共识与争议"——观察修正行为的变化。
这件事对从业者的实际影响
Karpathy 的去向不是一个八卦话题,它指向几个具体的行动建议:
如果你在做 LLM 应用开发:Anthropic 的 API 和开源工具值得认真评估。CircuitTracer 和字典学习工具虽然还偏研究阶段,但已经可以用来分析你自己训练的小模型。Karpathy 入局后,这类工具的工程化程度大概率会快速提升。
如果你在做模型训练:Karpathy 的 llm.c 证明了纯 C 实现可以比 PyTorch 快数倍。如果你在推训练吞吐量的极限,值得花时间看他的实现思路——尤其是手写反向传播和混合精度训练的部分。
如果你在做安全与对齐:Constitutional AI 的自评流程比纯人类标注更可扩展。上面的示例脚本是一个起点,你可以把它嵌入到自己的评测管线中,作为生成前的自动过滤层。
风险提示:Anthropic 的 interpretability 工具目前主要适配自家模型架构,迁移到其他架构需要额外工作。CAI 的自评循环依赖模型自身的批评能力——如果模型本身对某些原则缺乏敏感度,自评会失效,这和人类标注的盲区是同一类问题,只是换了主体。
Karpathy 说"未来几年是关键成形期"。成形意味着方向还没锁死——训练范式、对齐方法、模型可解释性,每一块都可能被重新定义。他选了 Anthropic,本质上是选了"理解模型内部"这条路线。对从业者来说,现在开始熟悉 Anthropic 的技术栈和 interpretability 工具,不是跟风,是在下一个成形期到来前先占好位置。