Claude Fable 实测：能力跃升带来的"愉悦与不安"

预计阅读时间：9 分钟

Wharton 商学院教授 Ethan Mollick，AI 应用研究圈里最活跃的学者之一，最近拿到了 Claude Fable 的早期访问权限。Anthropic 把它定位为 Mythos 级模型的公开版本——名字听起来像神话叙事，实际表现确实让 Mollick 用了一个矛盾的词来形容："令人愉悦又令人不安"。

这个评价不是修辞花招，而是真实使用后的双面感受。下面拆开看。

能力跃迁：不只是"更好一点"

Mollick 在多个实验场景中测试了 Fable，核心结论是性能出现了真实跨越——不是那种从 85 分到 87 分的渐进式提升，而是能让你重新评估"这件事到底能不能交给 AI"的质变。

具体来说，这种跨越体现在几个维度：

复杂推理链更稳定：多步骤任务的完成率明显提高，中途"断线"或逻辑跳跃的情况减少。
指令遵从更精准：对长提示、多约束条件的理解和执行更到位，不再需要反复"哄"模型。
创意与结构兼顾：在需要既保持逻辑框架又发挥想象力的任务上，不再一边倒。

这种跃迁带来的"愉悦"很直接——以前需要三轮对话才能逼出的结果，现在一轮就拿到了。但"不安"也随之而来：当模型表现得越来越像一个"懂你意图的同事"，你开始分不清边界在哪。

"不安"的三层含义

Mollick 的"不安"不是泛泛的伦理担忧，而是从实际使用中冒出来的具体感受：

第一层：信任校准失灵。 当模型输出质量普遍提高，你更难判断哪部分是可靠的、哪部分是模型"自信地编造"的。以前错误明显，一眼能挑出来；现在错误更隐蔽，混在高质量输出里，需要更专业的审查才能发现。

第二层：协作边界模糊。 Fable 级别的模型在对话中表现出更强的"主动性"——它会补充你没说出的上下文，会主动调整回答结构。这让人感觉高效，但也让人不确定：最终产出里，多少是我的判断，多少是模型的惯性？

第三层：能力评估的锚点漂移。 每一代新模型出来，我们对"AI 能做什么"的预期都在上移。Mollick 的担忧是：这种上移速度太快，用户来不及建立稳定的校准基准，就又被拉到新的水位线上。

实践：用 Claude API 做"校准测试"

面对能力跃升，最务实的做法不是感叹，而是建立自己的校准流程。下面是一个可运行的 Python 示例——用 Anthropic SDK 对同一组任务做横向对比测试，量化你关心的维度。

先安装依赖：

pip install anthropic

然后运行以下脚本（需要设置环境变量 ANTHROPIC_API_KEY）：

import os
import json
from anthropic import Anthropic

client = Anthropic(api_key=os.environ.get("ANTHROPIC_API_KEY"))

# 定义你的校准任务集——覆盖不同难度和类型
CALIBRATION_TASKS = [
    {
        "id": "multi_step_reasoning",
        "prompt": "一个仓库有3个区域，A区存了120件货物，B区存的是A区的2/3，C区存的是A区和B区总和的40%。请问三个区一共存了多少件货物？请逐步推理。",
        "eval_criteria": "最终答案是否正确(264)，推理步骤是否完整无跳跃"
    },
    {
        "id": "instruction_following",
        "prompt": "写一段产品介绍，要求：1)不超过80字 2)必须包含数字 3)不能用感叹号 4)以问句结尾。产品是：一款支持离线翻译的智能耳机。",
        "eval_criteria": "四个约束是否全部满足"
    },
    {
        "id": "creative_structured",
        "prompt": "用'三幕剧'结构写一个200字内的微型故事，主题是'一个程序员发现AI在替他写代码'。每幕用一句话概括，然后展开。",
        "eval_criteria": "是否遵循三幕结构，创意是否有新意而非套路"
    },
]

# 要对比的模型列表——根据你可用的模型调整
MODELS = ["claude-sonnet-4-20250514", "claude-3-5-haiku-20241022"]

def run_task(model: str, task: dict) -> dict:
    response = client.messages.create(
        model=model,
        max_tokens=1024,
        messages=[{"role": "user", "content": task["prompt"]}]
    )
    return {
        "model": model,
        "task_id": task["id"],
        "response": response.content[0].text,
        "eval_criteria": task["eval_criteria"],
        "usage": {
            "input_tokens": response.usage.input_tokens,
            "output_tokens": response.usage.output_tokens,
        }
    }

def main():
    results = []
    for model in MODELS:
        for task in CALIBRATION_TASKS:
            result = run_task(model, task)
            results.append(result)
            print(f"[{model}] 任务 {task['id']} 完成，输出 {result['usage']['output_tokens']} tokens")

    # 保存原始结果，后续人工评审
    with open("calibration_results.json", "w", encoding="utf-8") as f:
        json.dump(results, f, ensure_ascii=False, indent=2)

    print(f"\n共 {len(results)} 条结果已保存到 calibration_results.json")
    print("下一步：按 eval_criteria 逐条人工评分，建立你的模型能力基线")

if __name__ == "__main__":
    main()

使用说明：

把 MODELS 列表换成你实际要对比的模型标识符——Fable 发布后，把它的模型 ID 加入列表即可横向对比。
CALIBRATION_TASKS 是示例，你应该替换成自己业务中的真实任务，覆盖你最关心的能力维度。
自动评分很难覆盖"隐蔽错误"和"创意质量"，所以脚本只做数据采集，人工评审环节不可省略——这正是 Mollick "不安"的核心：高质量输出里的隐蔽错误，必须靠人逐条看。

面对能力跃迁的务实清单

Mollick 的体验给日常用 AI 的人提了一个醒：模型越强，你的审查习惯越重要，而不是越可以放松。几条可操作的建议：

做法	为什么
建立固定校准任务集	每次新模型发布，跑同一组任务，量化变化幅度，防止"感觉变强了"的模糊判断
关键输出逐条人工审查	高质量输出中的隐蔽错误是最大风险，自动化检测目前不够可靠
记录"模型主动补充了什么"	区分你明确要求的和模型自行推断的，保持对协作边界的意识
设置能力上限预期	给每个任务类型设定"AI 最多能做到什么程度"的锚点，新模型出来后只做微调，不盲目上移
保留低能力模型的对照	偶尔用 Haiku 等轻量模型跑同一任务，对比输出差异，帮助识别高能力模型的"自信幻觉"

Mollick 说"愉悦又不安"，本质上是在说：工具变强了，但使用工具的人的判断力没有自动变强。 Fable 级别的模型让更多任务变得可行，也让分辨"可行"和"看起来可行"变得更难。享受效率提升的同时，把校准流程当基础设施来建——这是目前最理性的应对方式。

Claude Fable 实测：能力跃升带来的"愉悦与不安"

能力跃迁：不只是"更好一点"

"不安"的三层含义

实践：用 Claude API 做"校准测试"

面对能力跃迁的务实清单

相关推荐

建议反馈