CEO 们得了"AI 精神病"——而你的一线代码不会陪他们做梦

预计阅读时间：12 分钟

Box CEO Aaron Levie 最近在公开场合给科技圈高管群体下了一个诊断：AI 精神病（AI psychosis）。症状很典型——离一线越远，越觉得 AI 无所不能；离键盘越近，越知道每个百分点提升背后要填多少坑。

这不是一句玩笑。当董事会要求"全面 AI 化"，当竞对发布会上的 demo 让 C-suite 觉得落后一个时代，一种独特的认知偏差就悄悄接管了决策层：用"太大太远"的视角规划落地，用愿景代替验证。

症状清单：你身边可能已经有人发病

Levie 描述的"AI 精神病"有几条可识别的临床表现：

把 demo 当产品。看到 GPT 流畅对话，就认为客服系统可以明天切换；看到生成式设计，就要求工程团队下周产出。
用投资人的语气谈技术。"AI 将重塑一切"是路演话术，不是技术判断。重塑需要数据管道、评估体系、容错边界、合规审查——这些在幻灯片上不存在。
跳过中间态。从"手动流程"直接跳到"AI 全自动"，中间的半自动化、人机协作、渐进替换阶段被一笔带过。结果是系统要么不敢上线，要么上线后事故频出。
低估隐性成本。推理费用、延迟、幻觉率、数据清洗、标注人力、模型迭代——这些在 CEO 的脑中权重为零，在工程师的排期里占 80%。

核心机制只有一个：距离一线越远，对"落地难度"的感知就越失真。 这和当年"云精神病""微服务精神病"如出一辙——新技术让决策者兴奋，让实施者头秃。

为什么一线工程师反而更"保守"

不是工程师缺乏想象力，而是他们每天都在和失败率打交道。

一个 CEO 说"AI 将自动处理 90% 的客服工单"，他看到的是节省的人力成本。一个工程师看到的是：10% 的工单会出幻觉、5% 会引用过期政策、3% 会把投诉升级成公关事故——而这些需要人逐条兜底。

保守不是抗拒，是对误差分布的直觉。你跑过一次评估就知道：模型在 benchmark 上 95% 准确率，到了真实业务数据上可能掉到 70%，而那 30% 的失败案例恰好集中在最敏感的客户群体上。

落地难度评估：一个可以跑的框架

对抗"AI 精神病"的方法不是少想，而是多量。下面是一个 Python 脚本，用来对任意业务流程做结构化的 AI 落地难度评估——把模糊的"能不能做"拆成可量化、可追踪的维度。

#!/usr/bin/env python3
"""
ai_readiness_assessment.py — AI 落地难度评估工具

用法:
  python ai_readiness_assessment.py

根据提示逐项输入评分（1-5），输出各维度得分和综合评估。
1 = 极难/极差，5 = 极易/极好
"""

import json
from dataclasses import dataclass, asdict

DIMENSIONS = {
    "data_quality": "数据质量：数据是否干净、结构化、有标注？",
    "task_determinism": "任务确定性：输出是否有明确对错标准？",
    "error_tolerance": "容错边界：错误输出是否可被容忍或低成本修正？",
    "latency_requirement": "延迟要求：是否需要毫秒级响应？",
    "compliance_risk": "合规风险：是否涉及隐私、金融、医疗等敏感领域？",
    "integration_complexity": "集成复杂度：是否需要对接多个异构系统？",
    "human_override": "人工兜底：是否有现成的人力流程可做 fallback？",
    "volume_predictability": "流量可预测性：请求量是否稳定，能否做容量规划？",
}

WEIGHTS = {
    "data_quality": 0.20,
    "task_determinism": 0.15,
    "error_tolerance": 0.15,
    "latency_requirement": 0.10,
    "compliance_risk": 0.15,
    "integration_complexity": 0.10,
    "human_override": 0.10,
    "volume_predictability": 0.05,
}

@dataclass
class Assessment:
    workflow_name: str
    scores: dict
    weighted_score: float
    recommendation: str

def collect_scores():
    scores = {}
    print("=== AI 落地难度评估 ===")
    print("为每个维度打分 (1=极难/极差 … 5=极易/极好):\n")
    for dim, desc in DIMENSIONS.items():
        while True:
            try:
                val = int(input(f"  [{dim}] {desc} → 评分 (1-5): "))
                if 1 <= val <= 5:
                    scores[dim] = val
                    break
                print("    请输入 1-5 之间的整数")
            except ValueError:
                print("    请输入整数")
    return scores

def compute_assessment(workflow_name: str, scores: dict) -> Assessment:
    weighted = sum(scores[k] * WEIGHTS[k] for k in WEIGHTS)
    if weighted >= 4.0:
        rec = "🟢 推荐立即试点 — 条件成熟，可小规模上线验证"
    elif weighted >= 3.0:
        rec = "🟡 建议渐进引入 — 先做人机协作模式，逐步扩大 AI 覆盖面"
    elif weighted >= 2.0:
        rec = "🟠 需要基础设施投入 — 先解决数据/合规/兜底流程，再考虑 AI"
    else:
        rec = "🔴 当前不宜引入 AI — 风险和成本远超收益，保持人工流程"
    return Assessment(workflow_name, scores, round(weighted, 2), rec)

def main():
    workflow = input("评估的业务流程名称: ").strip() or "未命名流程"
    scores = collect_scores()
    result = compute_assessment(workflow, scores)

    print(f"\n{'='*50}")
    print(f"流程: {result.workflow_name}")
    print(f"综合得分: {result.weighted_score} / 5.0")
    print(f"建议: {result.recommendation}")
    print(f"\n各维度详情:")
    for dim, score in result.scores.items():
        bar = "█" * score + "░" * (5 - score)
        print(f"  {dim:25s} [{bar}] {score}/5  (权重 {WEIGHTS[dim]:.0%})")

    # 保存为 JSON 方便后续追踪
    out_file = f"assessment_{workflow.replace(' ', '_')}.json"
    with open(out_file, "w", encoding="utf-8") as f:
        json.dump(asdict(result), f, ensure_ascii=False, indent=2)
    print(f"\n评估结果已保存至 {out_file}")

if __name__ == "__main__":
    main()

跑一次试试：

$ python ai_readiness_assessment.py
评估的业务流程名称: 客服工单自动回复
  [data_quality] 数据质量：数据是否干净、结构化、有标注？ → 评分 (1-5): 3
  [task_determinism] 任务确定性：输出是否有明确对错标准？ → 评分 (1-5): 2
  [error_tolerance] 容错边界：错误输出是否可被容忍或低成本修正？ → 评分 (1-5): 2
  [latency_requirement] 延迟要求：是否需要毫秒级响应？ → 评分 (1-5): 4
  [compliance_risk] 合规风险：是否涉及隐私、金融、医疗等敏感领域？ → 评分 (1-5): 2
  [integration_complexity] 集成复杂度：是否需要对接多个异构系统？ → 评分 (1-5): 3
  [human_override] 人工兜底：是否有现成的人力流程可做 fallback？ → 评分 (1-5): 4
  [volume_predictability] 流量可预测性：请求量是否稳定，能否做容量规划？ → 评分 (1-5): 4

==================================================
流程: 客服工单自动回复
综合得分: 2.75 / 5.0
建议: 🟠 需要基础设施投入 — 先解决数据/合规/兜底流程，再考虑 AI

这个分数会迫使团队承认：客服场景的容错和合规维度太低，不能直接全自动化。 正确路径是先建人机协作——AI 草拟回复，人工审核后发送，同时积累标注数据，逐步提升自动化比例。

从"精神病"到"精神正常"：几条实操建议

1. 强制 CEO 做一次 blind test

让决策者亲自跑 50 条真实业务输入，亲手标注 AI 输出的对错。幻觉率、边界 case、延迟波动——这些只有手指碰到才会产生体感。体感比任何幻灯片都有效。

2. 用评估框架替代愿景陈述

上面的脚本只是一个起点。每个团队应该维护自己的维度权重——金融团队把 compliance_risk 权重拉到 0.25，内容团队把 error_tolerance 放到 0.20。量化不是为了否定 AI，是为了找到正确的切入顺序。

3. 永远保留人工兜底通道

半自动化不是妥协，是工程上的最优解。人机协作模式让你在低风险场景积累数据、验证模型，同时在高风险场景有人兜底。跳过这个阶段直接全自动化，等于在没有安全网的情况下走钢丝。

4. 把 ROI 计算拉到月度粒度

CEO 级别的 ROI 算的是年度节省。工程师级别的 ROI 算的是：这个月推理费多少、标注人力多少、事故修复多少、用户流失多少。两套账必须对齐——如果月度账是负的，年度愿景就是空中楼阁。

5. 设立"反精神病"检查点

每个 AI 项目立项时，要求回答三个问题： - 如果模型准确率只有 80%（而不是 demo 里的 98%），业务还能跑吗？ - 哪 20% 的 case 会出问题，它们集中在什么用户群体上？ - 出问题时，谁来处理、处理成本多少、SLA 能守住吗？

答不上来就暂停立项。这不是保守，是基本的工程纪律。

"AI 精神病"的真正危险不在于过度乐观——乐观是推动行业前进的动力。危险在于乐观脱离了地面：决策层在云端画蓝图，执行层在泥里填坑，中间没有梯子。

作为一线工程师，你的职责不是否定愿景，而是给愿景装上刹车和仪表盘。上面的评估脚本就是一块仪表——它不会告诉你"能不能做"，但会告诉你"先做什么、后做什么、哪些风险必须先解决"。

CEO 们可以继续做梦。但代码不会陪他们做梦。

CEO 们得了"AI 精神病"——而你的一线代码不会陪他们做梦

症状清单：你身边可能已经有人发病

为什么一线工程师反而更"保守"

落地难度评估：一个可以跑的框架

从"精神病"到"精神正常"：几条实操建议

相关推荐

建议反馈