Notion 用 Codex 做了什么：从一次性规格到语音输入，小团队的工程倍增器

预计阅读时间：12 分钟

OpenAI 的 Codex 不是又一个聊天机器人——它是一个能在沙盒里读代码、写代码、跑测试、提交 PR 的编码代理。Notion 的工程团队把它用到了一个有意思的极限：不是让它补全几行函数，而是让它从零生成完整的功能规格，甚至直接交付可运行的产品特性。他们的 AI Voice Input for Web 就是这么出来的。对小团队来说，这种用法值得拆开看。

一次性生成规格：把模糊想法变成可执行文档

Notion 的做法是给 Codex 一段简短的产品意图描述，让它一次性输出完整的技术规格——包括架构决策、接口定义、边界条件和测试策略。这比让人工从空白文档开始写快得多，而且输出的规格本身就是后续编码的输入。

关键在于提示词的结构。不是"帮我写个规格"，而是把上下文喂足：现有代码仓库的约定、相关模块的接口、已知的约束条件。Codex 在沙盒里能读仓库文件，所以它不是在凭空编造，而是在你的代码上下文里做推理。

下面是一个可以直接改造使用的 Codex CLI 调用示例，演示如何让 Codex 从仓库上下文生成规格：

# 安装 Codex CLI（需要 Node.js 18+）
npm install -g @openai/codex

# 设置 API Key
export OPENAI_API_KEY="sk-..."

# 让 Codex 在沙盒中读取仓库，一次性生成规格文档
codex --model o4-mini \
  --full-auto \
  "阅读 src/voice/ 目录下的所有文件和 types.ts 中的类型定义。\
   基于现有架构，为「Web 端语音输入」功能生成一份完整技术规格，\
   包含：1) 组件接口签名 2) 音频流处理流程 3) 与现有 Editor 的集成方式\
   4) 错误处理与降级策略 5) 需要新增的测试用例清单。\
   输出为 Markdown，写入 docs/specs/voice-input.md"

--full-auto 让 Codex 自主决定是否执行命令和写入文件。它会先读代码，再推理，再生成文档——整个过程不需要人工干预。生成出来的规格文档可以直接作为团队评审的起点，比从零手写节省数小时。

AI Voice Input：从规格到可运行代码

Notion 的 AI Voice Input 是一个更完整的案例。这个功能让用户在 Notion 的 Web 编辑器里直接用语音输入内容，背后涉及浏览器音频 API、流式转录、与富文本编辑器的集成——不是一个小特性。

团队的做法是：先用 Codex 生成规格，再让 Codex 基于规格逐模块实现。每个模块的实现仍然是 Codex 在沙盒里读现有代码、写新代码、跑测试。人做的是评审和决策，不是逐行编写。

这种流程的核心不是"AI 写代码人不用写了"，而是"人从编写者变成评审者，吞吐量翻倍"。一个工程师一天能评审的 PR 数量远多于他能手写的 PR 数量。

下面模拟一个简化版的 Web 语音输入模块，展示 Codex 可能生成的代码结构（基于 Web Speech API，可直接在浏览器运行）：

// voice-input.ts — 简化版 Web 语音输入集成示例
// 前提：浏览器支持 Web Speech API（Chrome/Edge），生产环境需降级处理

interface VoiceInputConfig {
  lang: string;           // 语音识别语言，如 'zh-CN'
  continuous: boolean;    // 是否持续识别
  interimResults: boolean; // 是否返回中间结果
  onInterim: (text: string) => void;  // 中间结果回调，用于实时显示
  onFinal: (text: string) => void;    // 最终结果回调，用于插入编辑器
  onError: (err: SpeechRecognitionError) => void;
}

export function createVoiceInput(config: VoiceInputConfig) {
  const SpeechRecognition = window.SpeechRecognition || window.webkitSpeechRecognition;
  if (!SpeechRecognition) {
    config.onError({ error: 'not-supported', message: '浏览器不支持语音识别' });
    return null;
  }

  const recognition = new SpeechRecognition();
  recognition.lang = config.lang;
  recognition.continuous = config.continuous;
  recognition.interimResults = config.interimResults;

  recognition.onresult = (event: SpeechRecognitionEvent) => {
    let interimTranscript = '';
    let finalTranscript = '';

    for (let i = event.resultIndex; i < event.results.length; i++) {
      const result = event.results[i];
      if (result.isFinal) {
        finalTranscript += result[0].transcript;
      } else {
        interimTranscript += result[0].transcript;
      }
    }

    if (interimTranscript) config.onInterim(interimTranscript);
    if (finalTranscript) config.onFinal(finalTranscript);
  };

  recognition.onerror = (event) => config.onError(event);

  return {
    start: () => recognition.start(),
    stop: () => recognition.stop(),
    abort: () => recognition.abort(),
  };
}

// 使用示例：接入一个简单的 textarea
const textarea = document.querySelector('#editor') as HTMLTextAreaElement;

const voice = createVoiceInput({
  lang: 'zh-CN',
  continuous: true,
  interimResults: true,
  onInterim: (text) => { /* 实时显示在编辑器光标位置，此处简化 */ },
  onFinal: (text) => {
    textarea.value += text;
    textarea.dispatchEvent(new Event('input'));
  },
  onError: (err) => console.error('语音识别错误:', err.error),
});

// 开始/停止录音
document.querySelector('#start-btn')!.addEventListener('click', () => voice?.start());
document.querySelector('#stop-btn')!.addEventListener('click', () => voice?.stop());

这段代码是可运行的起点。真实项目中需要处理的问题更多：富文本编辑器的光标定位、多段语音结果的拼接策略、Safari/Firefox 的降级方案、噪声环境下的识别精度。但 Codex 生成的初版代码已经覆盖了核心流程，剩下的边界问题在评审中逐个补齐即可。

小团队的工程倍增：不是替代，是杠杆

Notion 强调的不是"AI 替代工程师"，而是"小团队用 Codex 做了原本需要大团队才能做的事"。一个 3-5 人的小组，用 Codex 处理规格生成、初版实现、测试编写这些耗时但结构化的工作，把人力集中在架构决策和产品判断上。

这种用法有几个实际前提：

代码仓库必须可读。Codex 的推理质量取决于它能读到的上下文。如果仓库结构混乱、命名随意、缺少类型定义，Codex 的输出质量会明显下降。这反而倒逼团队维护代码的可读性。
评审流程不能省。Codex 生成的代码和规格必须经过人工评审。跳过评审直接上线，风险和人工写代码不评审一样大。
任务要拆得足够细。给 Codex 一个"重写整个后端"的指令，结果大概率不可用。给它一个"为 X 模块新增 Y 接口，遵循现有的 Z 模式"，结果往往可用。

下面是一个把任务拆细后逐个交给 Codex 的工作流脚本示例：

#!/bin/bash
# codex-workflow.sh — 逐任务调用 Codex 的简化工作流
# 前提：已安装 codex CLI，已设置 OPENAI_API_KEY

TASKS=(
  "阅读 src/editor/types.ts，为语音输入新增 VoiceInputState 类型定义，写入 src/voice/types.ts"
  "基于 src/voice/types.ts 中的类型，实现 createVoiceInput 函数，写入 src/voice/input.ts，参考 src/audio/stream.ts 的流处理模式"
  "为 src/voice/input.ts 编写单元测试，写入 src/voice/input.test.ts，覆盖启动、停止、错误降级三个场景"
  "阅读 src/editor/hooks.ts，新增 useVoiceInput hook，集成 src/voice/input.ts，写入 src/editor/hooks/voice.ts"
)

for task in "${TASKS[@]}"; do
  echo ">>> 执行任务: $task"
  codex --model o4-mini --full-auto "$task"
  echo ">>> 完成，请评审后再继续下一个任务"
  read -p "评审通过？按 Enter 继续，Ctrl+C 中止: "
done

echo "所有任务完成，请做最终集成测试"

这个脚本的核心思路是：每个 Codex 调用只做一件事，做完后人工评审，确认后再推进下一步。不是一口气让 AI 做完所有事，而是把 AI 当成一个速度极快但需要监督的协作者。

采纳建议与边界

适合用 Codex 的场景：结构明确的模块实现、测试编写、规格生成、文档补全、按既有模式新增接口。这些任务有清晰的输入（现有代码）和可验证的输出（可运行的代码或可评审的文档）。

不适合用 Codex 的场景：需要深度产品判断的架构决策、涉及安全敏感逻辑的代码（认证、加密、权限）、需要跨多个服务协调的重构。这些任务的正确性难以通过代码评审快速确认。

起步建议：

先在一个内部工具或低风险模块上试 Codex 的规格生成，感受输出质量。
确保仓库有清晰的目录结构和类型定义——这是 Codex 推理的基础。
建立评审习惯：Codex 的每个 PR 都要人看，不是走过场。
逐步扩大范围，但始终把任务拆细、逐个验证。

Codex 对小团队的价值不是"少招人"，而是"同样的人数做更多事，且每件事的质量底线不降"。Notion 的实践证明了这个杠杆是真实的，但前提是你愿意投入时间在代码可读性和评审流程上——这两件事本身就是工程基本功，Codex 只是让它们的回报变得更明显。

Notion 用 Codex 做了什么：从一次性规格到语音输入，小团队的工程倍增器

一次性生成规格：把模糊想法变成可执行文档

AI Voice Input：从规格到可运行代码

小团队的工程倍增：不是替代，是杠杆

采纳建议与边界

相关推荐

建议反馈