CEO 们得了"AI 精神病"——而你的一线代码不会陪他们做梦

2026-05-28 32 预计阅读时间:1 分钟
来源:oschina.net AI 摘要 原文链接

免责声明:本文为 AI 摘要整理,建议结合原文阅读。摘要可能省略上下文、版本差异或边界条件,不作为官方说明。

预计阅读时间:12 分钟

Box CEO Aaron Levie 最近在公开场合给科技圈高管群体下了一个诊断:AI 精神病(AI psychosis)。症状很典型——离一线越远,越觉得 AI 无所不能;离键盘越近,越知道每个百分点提升背后要填多少坑。

这不是一句玩笑。当董事会要求"全面 AI 化",当竞对发布会上的 demo 让 C-suite 觉得落后一个时代,一种独特的认知偏差就悄悄接管了决策层:用"太大太远"的视角规划落地,用愿景代替验证。

症状清单:你身边可能已经有人发病

Levie 描述的"AI 精神病"有几条可识别的临床表现:

  1. 把 demo 当产品。看到 GPT 流畅对话,就认为客服系统可以明天切换;看到生成式设计,就要求工程团队下周产出。
  2. 用投资人的语气谈技术。"AI 将重塑一切"是路演话术,不是技术判断。重塑需要数据管道、评估体系、容错边界、合规审查——这些在幻灯片上不存在。
  3. 跳过中间态。从"手动流程"直接跳到"AI 全自动",中间的半自动化、人机协作、渐进替换阶段被一笔带过。结果是系统要么不敢上线,要么上线后事故频出。
  4. 低估隐性成本。推理费用、延迟、幻觉率、数据清洗、标注人力、模型迭代——这些在 CEO 的脑中权重为零,在工程师的排期里占 80%。

核心机制只有一个:距离一线越远,对"落地难度"的感知就越失真。 这和当年"云精神病""微服务精神病"如出一辙——新技术让决策者兴奋,让实施者头秃。

为什么一线工程师反而更"保守"

不是工程师缺乏想象力,而是他们每天都在和失败率打交道。

一个 CEO 说"AI 将自动处理 90% 的客服工单",他看到的是节省的人力成本。一个工程师看到的是:10% 的工单会出幻觉、5% 会引用过期政策、3% 会把投诉升级成公关事故——而这些需要人逐条兜底。

保守不是抗拒,是对误差分布的直觉。你跑过一次评估就知道:模型在 benchmark 上 95% 准确率,到了真实业务数据上可能掉到 70%,而那 30% 的失败案例恰好集中在最敏感的客户群体上。

落地难度评估:一个可以跑的框架

对抗"AI 精神病"的方法不是少想,而是多量。下面是一个 Python 脚本,用来对任意业务流程做结构化的 AI 落地难度评估——把模糊的"能不能做"拆成可量化、可追踪的维度。

#!/usr/bin/env python3
"""
ai_readiness_assessment.py — AI 落地难度评估工具

用法:
  python ai_readiness_assessment.py

根据提示逐项输入评分(1-5),输出各维度得分和综合评估。
1 = 极难/极差,5 = 极易/极好
"""

import json
from dataclasses import dataclass, asdict

DIMENSIONS = {
    "data_quality": "数据质量:数据是否干净、结构化、有标注?",
    "task_determinism": "任务确定性:输出是否有明确对错标准?",
    "error_tolerance": "容错边界:错误输出是否可被容忍或低成本修正?",
    "latency_requirement": "延迟要求:是否需要毫秒级响应?",
    "compliance_risk": "合规风险:是否涉及隐私、金融、医疗等敏感领域?",
    "integration_complexity": "集成复杂度:是否需要对接多个异构系统?",
    "human_override": "人工兜底:是否有现成的人力流程可做 fallback?",
    "volume_predictability": "流量可预测性:请求量是否稳定,能否做容量规划?",
}

WEIGHTS = {
    "data_quality": 0.20,
    "task_determinism": 0.15,
    "error_tolerance": 0.15,
    "latency_requirement": 0.10,
    "compliance_risk": 0.15,
    "integration_complexity": 0.10,
    "human_override": 0.10,
    "volume_predictability": 0.05,
}

@dataclass
class Assessment:
    workflow_name: str
    scores: dict
    weighted_score: float
    recommendation: str

def collect_scores():
    scores = {}
    print("=== AI 落地难度评估 ===")
    print("为每个维度打分 (1=极难/极差 … 5=极易/极好):\n")
    for dim, desc in DIMENSIONS.items():
        while True:
            try:
                val = int(input(f"  [{dim}] {desc} → 评分 (1-5): "))
                if 1 <= val <= 5:
                    scores[dim] = val
                    break
                print("    请输入 1-5 之间的整数")
            except ValueError:
                print("    请输入整数")
    return scores

def compute_assessment(workflow_name: str, scores: dict) -> Assessment:
    weighted = sum(scores[k] * WEIGHTS[k] for k in WEIGHTS)
    if weighted >= 4.0:
        rec = "🟢 推荐立即试点 — 条件成熟,可小规模上线验证"
    elif weighted >= 3.0:
        rec = "🟡 建议渐进引入 — 先做人机协作模式,逐步扩大 AI 覆盖面"
    elif weighted >= 2.0:
        rec = "🟠 需要基础设施投入 — 先解决数据/合规/兜底流程,再考虑 AI"
    else:
        rec = "🔴 当前不宜引入 AI — 风险和成本远超收益,保持人工流程"
    return Assessment(workflow_name, scores, round(weighted, 2), rec)

def main():
    workflow = input("评估的业务流程名称: ").strip() or "未命名流程"
    scores = collect_scores()
    result = compute_assessment(workflow, scores)

    print(f"\n{'='*50}")
    print(f"流程: {result.workflow_name}")
    print(f"综合得分: {result.weighted_score} / 5.0")
    print(f"建议: {result.recommendation}")
    print(f"\n各维度详情:")
    for dim, score in result.scores.items():
        bar = "█" * score + "░" * (5 - score)
        print(f"  {dim:25s} [{bar}] {score}/5  (权重 {WEIGHTS[dim]:.0%})")

    # 保存为 JSON 方便后续追踪
    out_file = f"assessment_{workflow.replace(' ', '_')}.json"
    with open(out_file, "w", encoding="utf-8") as f:
        json.dump(asdict(result), f, ensure_ascii=False, indent=2)
    print(f"\n评估结果已保存至 {out_file}")

if __name__ == "__main__":
    main()

跑一次试试:

$ python ai_readiness_assessment.py
评估的业务流程名称: 客服工单自动回复
  [data_quality] 数据质量:数据是否干净、结构化、有标注?  评分 (1-5): 3
  [task_determinism] 任务确定性:输出是否有明确对错标准?  评分 (1-5): 2
  [error_tolerance] 容错边界:错误输出是否可被容忍或低成本修正?  评分 (1-5): 2
  [latency_requirement] 延迟要求:是否需要毫秒级响应?  评分 (1-5): 4
  [compliance_risk] 合规风险:是否涉及隐私、金融、医疗等敏感领域?  评分 (1-5): 2
  [integration_complexity] 集成复杂度:是否需要对接多个异构系统?  评分 (1-5): 3
  [human_override] 人工兜底:是否有现成的人力流程可做 fallback?  评分 (1-5): 4
  [volume_predictability] 流量可预测性:请求量是否稳定,能否做容量规划?  评分 (1-5): 4

==================================================
流程: 客服工单自动回复
综合得分: 2.75 / 5.0
建议: 🟠 需要基础设施投入  先解决数据/合规/兜底流程,再考虑 AI

这个分数会迫使团队承认:客服场景的容错和合规维度太低,不能直接全自动化。 正确路径是先建人机协作——AI 草拟回复,人工审核后发送,同时积累标注数据,逐步提升自动化比例。

从"精神病"到"精神正常":几条实操建议

1. 强制 CEO 做一次 blind test

让决策者亲自跑 50 条真实业务输入,亲手标注 AI 输出的对错。幻觉率、边界 case、延迟波动——这些只有手指碰到才会产生体感。体感比任何幻灯片都有效。

2. 用评估框架替代愿景陈述

上面的脚本只是一个起点。每个团队应该维护自己的维度权重——金融团队把 compliance_risk 权重拉到 0.25,内容团队把 error_tolerance 放到 0.20。量化不是为了否定 AI,是为了找到正确的切入顺序

3. 永远保留人工兜底通道

半自动化不是妥协,是工程上的最优解。人机协作模式让你在低风险场景积累数据、验证模型,同时在高风险场景有人兜底。跳过这个阶段直接全自动化,等于在没有安全网的情况下走钢丝。

4. 把 ROI 计算拉到月度粒度

CEO 级别的 ROI 算的是年度节省。工程师级别的 ROI 算的是:这个月推理费多少、标注人力多少、事故修复多少、用户流失多少。两套账必须对齐——如果月度账是负的,年度愿景就是空中楼阁。

5. 设立"反精神病"检查点

每个 AI 项目立项时,要求回答三个问题: - 如果模型准确率只有 80%(而不是 demo 里的 98%),业务还能跑吗? - 哪 20% 的 case 会出问题,它们集中在什么用户群体上? - 出问题时,谁来处理、处理成本多少、SLA 能守住吗?

答不上来就暂停立项。这不是保守,是基本的工程纪律。


"AI 精神病"的真正危险不在于过度乐观——乐观是推动行业前进的动力。危险在于乐观脱离了地面:决策层在云端画蓝图,执行层在泥里填坑,中间没有梯子。

作为一线工程师,你的职责不是否定愿景,而是给愿景装上刹车和仪表盘。上面的评估脚本就是一块仪表——它不会告诉你"能不能做",但会告诉你"先做什么、后做什么、哪些风险必须先解决"。

CEO 们可以继续做梦。但代码不会陪他们做梦。


相关推荐