从"猜对答案"到"证得严密"：LongCat-Flash-Prover 如何让 AI 真正学会数学证明

预计阅读时间：10 分钟

让大模型做一道高中代数题，它大概率能算出正确答案。但把同样的问题换成"请证明这个结论对所有自然数成立"，事情就完全不同了——答案对了不够，每一步推理都必须经得起形式化逻辑的逐行审查，一个模糊的"显然"就能让整条证明链断裂。LongCat-Flash-Prover 正是为这个更难的问题而开源的模型：它不满足于"猜答案"，而是要把 AI 推向严谨的形式化定理证明。

"算对"和"证严"之间隔着什么

常规数学题的评估逻辑很简单：最终数值对了就得分。模型可以用模式匹配、统计联想甚至"蒙"来抵达正确终点，中间过程无人追问。

定理证明则完全不同。它要求：

每一步都有明确的逻辑依据——不能出现"由直觉可知""显然成立"这类自然语言中的常见逃逸；
证明必须被机器验证——形式化证明助手（如 Lean4、Coq、Isabelle）会逐行检查，类型不匹配或逻辑跳跃直接报错；
链条不可断——哪怕 99 步都对，第 100 步引入一个未证明的假设，整个证明就作废。

这意味着模型需要从"生成看起来合理的自然语言解释"转向"生成可被证明助手编译通过的严格代码"。输出格式变了，容错空间消失了，推理深度也远超普通解题。

LongCat-Flash-Prover 的核心思路

根据项目介绍，LongCat-Flash-Prover 专注于数学形式化与定理证明，其设计围绕几个关键点：

面向形式化语言生成。模型的目标输出不是自然语言段落，而是 Lean4（或其他证明助手）的合法代码。这要求模型理解类型论、 tactic 语法以及证明助手特有的控制流，训练数据和目标分布与通用 LLM 有本质差异。

长链条推理能力。定理证明的典型长度远超普通问答——一个中等难度的数论定理在 Lean4 中可能需要几十到上百行 tactic 代码。模型必须维持上下文一致性，在长生成中不丢失目标状态，这比短文本推理难得多。

证明搜索而非单次生成。严谨证明往往不是一次写完的，而是需要反复尝试不同策略、回溯失败路径。项目名称中的"Flash"暗示了对搜索效率的优化——在证明的庞大搜索空间中快速定位可行路径。

实操：用 Lean4 写一个可验证的形式化证明

下面用一个具体例子展示形式化证明的工作方式。即使你没有 LongCat-Flash-Prover，也可以先手动体验 Lean4 的验证逻辑，理解"证得严"到底意味着什么。

环境准备

# 安装 Lean4（需要 elan 版本管理器）
curl https://raw.githubusercontent.com/leanprover/elan/master/elan-init.sh -sSf | sh

# 创建一个最小 Lean4 项目
mkdir lean-proof-demo && cd lean-proof-demo
lean --init

# 项目结构会自动生成 Lakefile.lean 和 lean-toolchain

写一个简单但完整的证明

在 lean-proof-demo/Lib/Demo.lean 中写入以下内容：

-- 证明：对任意自然数 n，n + 0 = n
-- 这看起来"显然"，但形式化证明必须给出严格依据

theorem add_zero_left (n : Nat) : n + 0 = n := by
  -- Lean4 的 Nat.add 定义：n + 0 按递归定义直接返回 n
  -- rfl（reflexivity）可以闭合这个等式，因为定义上两边相同
  rfl

-- 证明：对任意自然数 n，0 + n = n
-- 这个方向不那么"显然"，因为 0 + n 的递归定义展开后需要归纳

theorem add_zero_right (n : Nat) : 0 + n = n := by
  induction n with
  | zero =>
    -- 基例：0 + 0 = 0
    rfl
  | succ n ih =>
    -- 彥纳步：0 + (n+1) = (0 + n) + 1 = n + 1
    -- ih 是归纳假设：0 + n = n
    simp [Nat.add_succ, ih]

-- 证明一个稍复杂的性质：加法交换律
theorem add_comm (a b : Nat) : a + b = b + a := by
  induction a with
  | zero =>
    -- 0 + b = b = b + 0
    simp [add_zero_right]
  | succ a ih =>
    -- (a+1) + b = (a + b) + 1 = (b + a) + 1 = b + (a+1)
    simp [Nat.add_succ, ih, add_zero_right]

保存后在项目根目录运行：

lake build

如果所有证明通过，你会看到编译成功输出；如果某一步逻辑有漏洞，Lean4 会精确报出哪一行、哪个 tactic 失败、当前证明目标是什么。这就是"证得严"的体验——没有模糊地带。

用 LongCat-Flash-Prover 生成证明（可以这样实践）

模型开源后，典型的使用流程是将定理陈述交给模型，让它生成 tactic 代码，再交给 Lean4 验证。一个可能的交互方式：

# 假设模型已加载，以下为示意性调用流程
# 具体接口以项目开源仓库为准

theorem_statement = """
theorem mul_add (a b c : Nat) : a * (b + c) = a * b + a * c := by
  sorry
"""

# 将定理陈述和上下文传给模型
prompt = f"""请为以下 Lean4 定理生成完整的 tactic 证明，不使用 sorry：

{theorem_statement}
"""

# 模型输出 tactic 代码
generated_proof = model.generate(prompt)

# 将生成结果写入 .lean 文件，用 lake build 验证
with open("Lib/Generated.lean", "w") as f:
    f.write(generated_proof)

# 验证通过则证明成立，否则需迭代修正

关键点在于：模型输出的每一段代码都必须通过 lake build 的编译验证。这不是"看起来合理就行"，而是机器逐行检查的逻辑刚性。失败的证明会返回具体的错误信息（缺少哪个前提、哪个 tactic 无法闭合目标），这些信息可以反馈给模型进行迭代修正——这正是证明搜索的核心循环。

落地建议与边界

从哪里开始用：如果你在做数学形式化研究或教育工具，先从简单定理（自然数加法性质、列表基本操作）入手，验证模型在短证明上的可靠性，再逐步提升复杂度。不要一开始就拿费马大定理去测试。

需要关注的风险：

形式化证明的搜索空间随定理复杂度指数增长，当前模型在长证明（超过 50 行 tactic）上的成功率仍然有限；
模型可能生成"看起来对但实际有微妙类型错误"的代码，必须依赖 Lean4 验证作为最终裁判，不能仅凭阅读判断；
不同证明助手（Lean4 vs Coq vs Isabelle）的逻辑系统和语法差异很大，模型的能力是绑定特定系统的。

一个实用的检查清单：

检查项	说明
证明是否通过 `lake build`	不通过则证明无效，无需继续讨论
是否使用了 `sorry`	`sorry` 是占位符，等于"此处未证明"，不算完成
证明长度与定理难度是否匹配	过长的证明可能包含冗余路径，过短可能遗漏关键步骤
模型是否利用了正确的归纳策略	自然数定理通常需要 `induction`，错误策略会导致证明卡死

LongCat-Flash-Prover 把 AI 从"答题机器"推向了"证明助手"的方向。这个方向的价值不在于替代数学家，而在于为形式化验证提供一种可规模化尝试的搜索能力——模型快速生成候选证明，证明助手严格裁决，人类在关键决策点介入。三者配合，才是定理证明真正可行的工程路径。