Wharton 商学院教授 Ethan Mollick,AI 应用研究圈里最活跃的学者之一,最近拿到了 Claude Fable 的早期访问权限。Anthropic 把它定位为 Mythos 级模型的公开版本——名字听起来像神话叙事,实际表现确实让 Mollick 用了一个矛盾的词来形容:"令人愉悦又令人不安"。
这个评价不是修辞花招,而是真实使用后的双面感受。下面拆开看。
能力跃迁:不只是"更好一点"
Mollick 在多个实验场景中测试了 Fable,核心结论是性能出现了真实跨越——不是那种从 85 分到 87 分的渐进式提升,而是能让你重新评估"这件事到底能不能交给 AI"的质变。
具体来说,这种跨越体现在几个维度:
- 复杂推理链更稳定:多步骤任务的完成率明显提高,中途"断线"或逻辑跳跃的情况减少。
- 指令遵从更精准:对长提示、多约束条件的理解和执行更到位,不再需要反复"哄"模型。
- 创意与结构兼顾:在需要既保持逻辑框架又发挥想象力的任务上,不再一边倒。
这种跃迁带来的"愉悦"很直接——以前需要三轮对话才能逼出的结果,现在一轮就拿到了。但"不安"也随之而来:当模型表现得越来越像一个"懂你意图的同事",你开始分不清边界在哪。
"不安"的三层含义
Mollick 的"不安"不是泛泛的伦理担忧,而是从实际使用中冒出来的具体感受:
第一层:信任校准失灵。 当模型输出质量普遍提高,你更难判断哪部分是可靠的、哪部分是模型"自信地编造"的。以前错误明显,一眼能挑出来;现在错误更隐蔽,混在高质量输出里,需要更专业的审查才能发现。
第二层:协作边界模糊。 Fable 级别的模型在对话中表现出更强的"主动性"——它会补充你没说出的上下文,会主动调整回答结构。这让人感觉高效,但也让人不确定:最终产出里,多少是我的判断,多少是模型的惯性?
第三层:能力评估的锚点漂移。 每一代新模型出来,我们对"AI 能做什么"的预期都在上移。Mollick 的担忧是:这种上移速度太快,用户来不及建立稳定的校准基准,就又被拉到新的水位线上。
实践:用 Claude API 做"校准测试"
面对能力跃升,最务实的做法不是感叹,而是建立自己的校准流程。下面是一个可运行的 Python 示例——用 Anthropic SDK 对同一组任务做横向对比测试,量化你关心的维度。
先安装依赖:
pip install anthropic
然后运行以下脚本(需要设置环境变量 ANTHROPIC_API_KEY):
import os
import json
from anthropic import Anthropic
client = Anthropic(api_key=os.environ.get("ANTHROPIC_API_KEY"))
# 定义你的校准任务集——覆盖不同难度和类型
CALIBRATION_TASKS = [
{
"id": "multi_step_reasoning",
"prompt": "一个仓库有3个区域,A区存了120件货物,B区存的是A区的2/3,C区存的是A区和B区总和的40%。请问三个区一共存了多少件货物?请逐步推理。",
"eval_criteria": "最终答案是否正确(264),推理步骤是否完整无跳跃"
},
{
"id": "instruction_following",
"prompt": "写一段产品介绍,要求:1)不超过80字 2)必须包含数字 3)不能用感叹号 4)以问句结尾。产品是:一款支持离线翻译的智能耳机。",
"eval_criteria": "四个约束是否全部满足"
},
{
"id": "creative_structured",
"prompt": "用'三幕剧'结构写一个200字内的微型故事,主题是'一个程序员发现AI在替他写代码'。每幕用一句话概括,然后展开。",
"eval_criteria": "是否遵循三幕结构,创意是否有新意而非套路"
},
]
# 要对比的模型列表——根据你可用的模型调整
MODELS = ["claude-sonnet-4-20250514", "claude-3-5-haiku-20241022"]
def run_task(model: str, task: dict) -> dict:
response = client.messages.create(
model=model,
max_tokens=1024,
messages=[{"role": "user", "content": task["prompt"]}]
)
return {
"model": model,
"task_id": task["id"],
"response": response.content[0].text,
"eval_criteria": task["eval_criteria"],
"usage": {
"input_tokens": response.usage.input_tokens,
"output_tokens": response.usage.output_tokens,
}
}
def main():
results = []
for model in MODELS:
for task in CALIBRATION_TASKS:
result = run_task(model, task)
results.append(result)
print(f"[{model}] 任务 {task['id']} 完成,输出 {result['usage']['output_tokens']} tokens")
# 保存原始结果,后续人工评审
with open("calibration_results.json", "w", encoding="utf-8") as f:
json.dump(results, f, ensure_ascii=False, indent=2)
print(f"\n共 {len(results)} 条结果已保存到 calibration_results.json")
print("下一步:按 eval_criteria 逐条人工评分,建立你的模型能力基线")
if __name__ == "__main__":
main()
使用说明:
- 把
MODELS列表换成你实际要对比的模型标识符——Fable 发布后,把它的模型 ID 加入列表即可横向对比。 CALIBRATION_TASKS是示例,你应该替换成自己业务中的真实任务,覆盖你最关心的能力维度。- 自动评分很难覆盖"隐蔽错误"和"创意质量",所以脚本只做数据采集,人工评审环节不可省略——这正是 Mollick "不安"的核心:高质量输出里的隐蔽错误,必须靠人逐条看。
面对能力跃迁的务实清单
Mollick 的体验给日常用 AI 的人提了一个醒:模型越强,你的审查习惯越重要,而不是越可以放松。几条可操作的建议:
| 做法 | 为什么 |
|---|---|
| 建立固定校准任务集 | 每次新模型发布,跑同一组任务,量化变化幅度,防止"感觉变强了"的模糊判断 |
| 关键输出逐条人工审查 | 高质量输出中的隐蔽错误是最大风险,自动化检测目前不够可靠 |
| 记录"模型主动补充了什么" | 区分你明确要求的和模型自行推断的,保持对协作边界的意识 |
| 设置能力上限预期 | 给每个任务类型设定"AI 最多能做到什么程度"的锚点,新模型出来后只做微调,不盲目上移 |
| 保留低能力模型的对照 | 偶尔用 Haiku 等轻量模型跑同一任务,对比输出差异,帮助识别高能力模型的"自信幻觉" |
Mollick 说"愉悦又不安",本质上是在说:工具变强了,但使用工具的人的判断力没有自动变强。 Fable 级别的模型让更多任务变得可行,也让分辨"可行"和"看起来可行"变得更难。享受效率提升的同时,把校准流程当基础设施来建——这是目前最理性的应对方式。