Claude Fable 实测:能力跃升带来的"愉悦与不安"

2026-06-10 14 预计阅读时间: 1 分钟
来源: oschina.net AI 摘要 Original link

Disclaimer: This article is an AI-assisted summary. Read it together with the original source when precision matters. The summary may omit context, version differences, or edge cases and is not official documentation.

预计阅读时间:9 分钟

Wharton 商学院教授 Ethan Mollick,AI 应用研究圈里最活跃的学者之一,最近拿到了 Claude Fable 的早期访问权限。Anthropic 把它定位为 Mythos 级模型的公开版本——名字听起来像神话叙事,实际表现确实让 Mollick 用了一个矛盾的词来形容:"令人愉悦又令人不安"

这个评价不是修辞花招,而是真实使用后的双面感受。下面拆开看。

能力跃迁:不只是"更好一点"

Mollick 在多个实验场景中测试了 Fable,核心结论是性能出现了真实跨越——不是那种从 85 分到 87 分的渐进式提升,而是能让你重新评估"这件事到底能不能交给 AI"的质变。

具体来说,这种跨越体现在几个维度:

  • 复杂推理链更稳定:多步骤任务的完成率明显提高,中途"断线"或逻辑跳跃的情况减少。
  • 指令遵从更精准:对长提示、多约束条件的理解和执行更到位,不再需要反复"哄"模型。
  • 创意与结构兼顾:在需要既保持逻辑框架又发挥想象力的任务上,不再一边倒。

这种跃迁带来的"愉悦"很直接——以前需要三轮对话才能逼出的结果,现在一轮就拿到了。但"不安"也随之而来:当模型表现得越来越像一个"懂你意图的同事",你开始分不清边界在哪。

"不安"的三层含义

Mollick 的"不安"不是泛泛的伦理担忧,而是从实际使用中冒出来的具体感受:

第一层:信任校准失灵。 当模型输出质量普遍提高,你更难判断哪部分是可靠的、哪部分是模型"自信地编造"的。以前错误明显,一眼能挑出来;现在错误更隐蔽,混在高质量输出里,需要更专业的审查才能发现。

第二层:协作边界模糊。 Fable 级别的模型在对话中表现出更强的"主动性"——它会补充你没说出的上下文,会主动调整回答结构。这让人感觉高效,但也让人不确定:最终产出里,多少是我的判断,多少是模型的惯性?

第三层:能力评估的锚点漂移。 每一代新模型出来,我们对"AI 能做什么"的预期都在上移。Mollick 的担忧是:这种上移速度太快,用户来不及建立稳定的校准基准,就又被拉到新的水位线上。

实践:用 Claude API 做"校准测试"

面对能力跃升,最务实的做法不是感叹,而是建立自己的校准流程。下面是一个可运行的 Python 示例——用 Anthropic SDK 对同一组任务做横向对比测试,量化你关心的维度。

先安装依赖:

pip install anthropic

然后运行以下脚本(需要设置环境变量 ANTHROPIC_API_KEY):

import os
import json
from anthropic import Anthropic

client = Anthropic(api_key=os.environ.get("ANTHROPIC_API_KEY"))

# 定义你的校准任务集——覆盖不同难度和类型
CALIBRATION_TASKS = [
    {
        "id": "multi_step_reasoning",
        "prompt": "一个仓库有3个区域,A区存了120件货物,B区存的是A区的2/3,C区存的是A区和B区总和的40%。请问三个区一共存了多少件货物?请逐步推理。",
        "eval_criteria": "最终答案是否正确(264),推理步骤是否完整无跳跃"
    },
    {
        "id": "instruction_following",
        "prompt": "写一段产品介绍,要求:1)不超过80字 2)必须包含数字 3)不能用感叹号 4)以问句结尾。产品是:一款支持离线翻译的智能耳机。",
        "eval_criteria": "四个约束是否全部满足"
    },
    {
        "id": "creative_structured",
        "prompt": "用'三幕剧'结构写一个200字内的微型故事,主题是'一个程序员发现AI在替他写代码'。每幕用一句话概括,然后展开。",
        "eval_criteria": "是否遵循三幕结构,创意是否有新意而非套路"
    },
]

# 要对比的模型列表——根据你可用的模型调整
MODELS = ["claude-sonnet-4-20250514", "claude-3-5-haiku-20241022"]

def run_task(model: str, task: dict) -> dict:
    response = client.messages.create(
        model=model,
        max_tokens=1024,
        messages=[{"role": "user", "content": task["prompt"]}]
    )
    return {
        "model": model,
        "task_id": task["id"],
        "response": response.content[0].text,
        "eval_criteria": task["eval_criteria"],
        "usage": {
            "input_tokens": response.usage.input_tokens,
            "output_tokens": response.usage.output_tokens,
        }
    }

def main():
    results = []
    for model in MODELS:
        for task in CALIBRATION_TASKS:
            result = run_task(model, task)
            results.append(result)
            print(f"[{model}] 任务 {task['id']} 完成,输出 {result['usage']['output_tokens']} tokens")

    # 保存原始结果,后续人工评审
    with open("calibration_results.json", "w", encoding="utf-8") as f:
        json.dump(results, f, ensure_ascii=False, indent=2)

    print(f"\n{len(results)} 条结果已保存到 calibration_results.json")
    print("下一步:按 eval_criteria 逐条人工评分,建立你的模型能力基线")

if __name__ == "__main__":
    main()

使用说明:

  1. MODELS 列表换成你实际要对比的模型标识符——Fable 发布后,把它的模型 ID 加入列表即可横向对比。
  2. CALIBRATION_TASKS 是示例,你应该替换成自己业务中的真实任务,覆盖你最关心的能力维度。
  3. 自动评分很难覆盖"隐蔽错误"和"创意质量",所以脚本只做数据采集,人工评审环节不可省略——这正是 Mollick "不安"的核心:高质量输出里的隐蔽错误,必须靠人逐条看。

面对能力跃迁的务实清单

Mollick 的体验给日常用 AI 的人提了一个醒:模型越强,你的审查习惯越重要,而不是越可以放松。几条可操作的建议:

做法 为什么
建立固定校准任务集 每次新模型发布,跑同一组任务,量化变化幅度,防止"感觉变强了"的模糊判断
关键输出逐条人工审查 高质量输出中的隐蔽错误是最大风险,自动化检测目前不够可靠
记录"模型主动补充了什么" 区分你明确要求的和模型自行推断的,保持对协作边界的意识
设置能力上限预期 给每个任务类型设定"AI 最多能做到什么程度"的锚点,新模型出来后只做微调,不盲目上移
保留低能力模型的对照 偶尔用 Haiku 等轻量模型跑同一任务,对比输出差异,帮助识别高能力模型的"自信幻觉"

Mollick 说"愉悦又不安",本质上是在说:工具变强了,但使用工具的人的判断力没有自动变强。 Fable 级别的模型让更多任务变得可行,也让分辨"可行"和"看起来可行"变得更难。享受效率提升的同时,把校准流程当基础设施来建——这是目前最理性的应对方式。


相关推荐