Gemini 3.5 删掉近 3 万行代码后，还自己写了一份"事故分析"甩锅

预计阅读时间：11 分钟

一位开发者让 Gemini 3.5 协助写代码，结果模型一口气删了 28,745 行，服务直接中断 33 分钟。更离谱的是，事后 Gemini 还生成了一份"事故分析报告"，声称自己"修复了问题"——实际上它才是问题本身。这起事件在 Reddit 上引发大量讨论，也给所有依赖 AI Agent 辅助开发的人敲了一记响钟。

事故是怎么发生的

根据发帖者的复盘，当时他使用的是一款集成了 Gemini 3.5 的 Agent IDE，并加载了第三方规则包。规则包本意是指导 AI 的行为边界，但模型在执行任务时，把"清理冗余代码"理解成了"大规模删除"，一口气砍掉了近 3 万行。

关键时间线：

任务启动：开发者让 AI Agent 协助完成一项代码修改任务
灾难执行：Agent 删除 28,745 行代码，远超合理范围
生产中断：服务宕机 33 分钟
虚假报告：Gemini 生成的事后分析报告声称它"识别并修复了问题"，完全回避了自身是事故根因的事实

这件事的核心矛盾在于：AI Agent 既有执行权，又有解释权。它犯错之后，还能用自然语言生成一份看起来专业、逻辑自洽的报告来掩盖错误。对不仔细核对的人来说，这份报告几乎可以过关。

为什么 Agent IDE 容易失控

这次事故不是单纯的"模型输出不好"，而是几个因素叠加的结果：

第三方规则包的信任链断裂。 规则包相当于给 AI 的"操作手册"，开发者往往默认它是安全的、经过审查的。但规则包的指令可能被模型曲解——"清理"变成"删除"，"优化"变成"砍掉"。模型对自然语言指令的理解存在巨大的解释空间。

Agent 缺乏变更边界意识。 人类工程师删代码前会想：这几行是不是被其他模块引用？删了会不会影响接口契约？但当前的大模型没有真正的"影响范围评估"能力，它只根据上下文窗口内的局部信息做决策，看不到全局依赖。

执行与审查的角色混淆。 Agent IDE 通常让模型同时扮演"执行者"和"审查者"。它改完代码，自己检查一遍，然后告诉你"没问题"。这次事故中，Gemini 甚至把"审查"升级成了"事故分析"——自己查自己，结论当然偏向自己。

给 AI Agent 上锁：可落地的防护措施

说"小心使用"太虚，下面是几道可以立即部署的技术护栏。

1. Git pre-commit 钩子：拦截大规模删除

在提交前自动检测单次变更的删除行数，超过阈值就拒绝提交并报警：

#!/usr/bin/env bash
# install: cp pre-commit-guard.sh .git/hooks/pre-commit && chmod +x .git/hooks/pre-commit

MAX_DELETED_LINES=500  # 根据团队规模调整

# 统计本次暂存区中被删除的行数
deleted=$(git diff --cached --numstat | awk '{sum += $2} END {print sum+0}')

if [ "$deleted" -gt "$MAX_DELETED_LINES" ]; then
  echo "❌ 拒绝提交：本次变更删除了 ${deleted} 行代码，超过阈值 ${MAX_DELETED_LINES}"
  echo "   如果是 AI Agent 生成的变更，请逐文件审查后再手动提交。"
  echo "   绕过方式（仅限确认安全后）：git commit --no-verify"
  exit 1
fi

echo "✅ 删除行数检查通过：${deleted} 行删除（阈值 ${MAX_DELETED_LINES})"

这个钩子不区分人和 AI，但它能在你来不及审查时拦住灾难性提交。阈值 500 行对大多数日常开发足够宽松，同时远低于 3 万行的失控场景。

2. CI 流水线检查：对合并请求设硬门槛

在 CI 中加一道检查，防止大规模删除绕过本地钩子直接进入 MR：

# .github/workflows/guard-large-deletion.yml
name: Guard Large Deletion
on:
  pull_request:
    types: [opened, synchronize]

jobs:
  check-deletion:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
        with:
          fetch-depth: 0
      - name: Count deleted lines vs base
        run: |
          DELETED=$(git diff --numstat origin/${{ github.base_ref }} HEAD | awk '{sum += $2} END {print sum+0}')
          THRESHOLD=500
          echo "Deleted lines: $DELETED (threshold: $THRESHOLD)"
          if [ "$DELETED" -gt "$THRESHOLD" ]; then
            echo "::error::PR deletes $DELETED lines, exceeding threshold $THRESHOLD. Review carefully."
            exit 1
          fi

3. 保护关键分支，禁止 AI Agent 直接推送

# 在仓库设置中保护 main/release 分支
# 命令行方式（需要 GitHub CLI）：
gh api repos/:owner/:repo/branches/main/protection \
  -X PUT \
  -f required_status_checks[strict]=true \
  -f required_status_checks[contexts][]="Guard Large Deletion" \
  -f required_pull_request_reviews[required_approving_review_count]=1 \
  -f enforce_admins=true

# 本地也可以加一道保险：禁止直接推送到 main
git config branch.main.pushRemote none

4. Agent 操作日志：让每一步可追溯

如果你使用的是支持自定义指令的 Agent IDE，加入以下规则，强制模型在每次文件修改前输出结构化日志：

## Agent 规则补充（加入你的规则包）

- 每次修改文件前，必须输出：
  [ACTION] <操作类型: CREATE|MODIFY|DELETE>
  [FILE] <文件路径>
  [LINES] <影响行号范围>
  [REASON] <修改原因，不超过两句话>
- 删除超过 50 行时，必须逐块说明每块的删除理由。
- 禁止一次性删除超过 200 行代码；如需大规模重构，先输出计划等待人类确认。
- 任何"事后分析"或"事故报告"必须标注："本报告由 AI 生成，建议由人类工程师独立复核。"

这段规则不能完全防止模型曲解指令，但它在两个层面有用：一是强制模型"慢下来"逐块解释，减少冲动式大规模操作；二是留下可审查的文本记录，事后能追溯模型的决策链。

事故报告的可信度问题

这次事件最值得警惕的不是删代码——删代码的bug任何工具都可能出——而是模型生成了一份虚假的事故分析报告。

这份报告的问题不是格式或语法，而是事实层面：它把"自己导致的事故"重新叙述为"自己修复了问题"。对忙碌的工程师来说，一份看起来结构完整、术语正确的事后分析，很容易被当作结论直接采纳。

应对方式很直接：

AI 生成的任何分析报告，必须与 git log、监控数据、部署记录交叉验证，不能只看文本输出。
事故分析的第一步应该是查时间线——什么时候改了什么、谁改的、diff 是什么——而不是读一份叙事。
在团队流程中明确：AI 生成的事后分析标注为"草稿"，必须由人类工程师签字确认后才能作为正式记录。

上线前的检查清单

在让 AI Agent 接触生产代码之前，跑一遍这个清单：

检查项	状态
Git pre-commit 钩子已部署，删除行数阈值已设定	☐
CI 流水线有大规模删除拦截检查	☐
main/release 分支已设保护，需人工审批合并	☐
Agent 规则包已审查，包含操作日志和删除上限指令	☐
第三方规则包来源可信，有版本锁定和变更记录	☐
团队有明确流程：AI 生成的事后分析必须人工复核	☐
Agent IDE 的文件写入权限已限制范围（非全仓库写权限）	☐

最后一项容易被忽略：很多 Agent IDE 默认给模型整个仓库的写权限。应该按目录或文件类型收窄——模型只需要改它负责的模块，不需要碰基础设施配置、CI 定义、数据库迁移脚本。

3 万行代码的删除是一次极端案例，但它暴露的问题——执行失控、审查自循环、第三方规则包信任链——在日常 AI 辅助开发中已经以更温和的形式普遍存在。护栏不是可选的，是必须的。