融资轮次越来越大,模型参数越来越多,发布会越来越密集——但一家公司到底有没有找到产品市场契合(PMF),答案不在新闻稿里,而在用户每月续费的账单上。开发者 Simon Willison 最近提出了一个朴素但有力的判断:Anthropic 和 OpenAI 已经实际达到了 PMF,依据不是估值,而是用户愿意付多少钱、实际用了多少次。
这个判断值得认真拆开看。
PMF 的旧定义为什么在 AI 行业失灵
传统 PMF 的经典信号是:用户自发增长、留存曲线不再下跌、口碑传播加速。Marc Andreessen 2007 年那篇文章把 PMF 描述成"你感觉到市场在把你往前拉"的状态。
但 AI 公司的叙事长期偏离这个框架。行业习惯用以下指标替代真正的 PMF 验证:
- 融资规模——几十亿美元轮次被当作市场认可的信号,但 VC 的钱是预期,不是验证。
- 模型能力基准——MMLU 分数、HumanEval 通过率,这些衡量的是技术前沿,不是用户是否愿意持续付费。
- API 调用量增速——调用增长可能来自免费层和实验性项目,不等于付费转化。
Willison 的观点本质上是把 PMF 拉回了最原始的商业逻辑:有没有一群人,在持续地、自费地、反复地用你的产品做事?如果有,PMF 就存在;如果没有,再大的模型也只是技术演示。
两个真正值得看的指标
Willison 提到的判断依据可以拆成两个可观测的维度:
1. 付费用户的绝对数量和增长速度
OpenAI 的 ChatGPT Plus 在 2023 年初定价 20 美元/月,当时很多人质疑"谁会为聊天付费"。两年后,付费订阅用户据估计已超过千万。Anthropic 的 Claude Pro(20 美元/月)起步更晚,但开发者群体的付费转化同样在加速——尤其是代码生成和长文档分析场景。
关键不是绝对数字,而是增长曲线是否自洽:如果产品没有真实价值,20 美元/月的订阅会在第二个月出现大规模流失。目前没有观察到这种断崖。
2. 使用深度——用户是偶尔试试,还是嵌入工作流
浅层使用的特征是:打开网页,问几个问题,关掉。深层使用的特征是:用户把 API 接入自己的脚本、把 Claude 嵌入代码编辑器、用 ChatGPT 做每周的文档摘要流水线。
Willison 自己就是深层用户的活样本——他的大量开源项目(Datasette、LLM 命令行工具)都直接调用这些 API,并且他公开表示每月的 API 费用是稳定支出,不是实验预算。
下面是一个典型的"嵌入工作流"示例——用 Anthropic 的 Python SDK 做代码审查自动化,这类脚本一旦跑通,就会变成团队日常依赖:
# 依赖:pip install anthropic
# 用途:对 git diff 输出做自动代码审查,输出改进建议
# 运行前设置环境变量:export ANTHROPIC_API_KEY="sk-ant-..."
import anthropic
import subprocess
import sys
def get_git_diff():
"""获取当前分支相对于 main 的 diff"""
result = subprocess.run(
["git", "diff", "main...HEAD"],
capture_output=True, text=True
)
if result.returncode != 0:
print("git diff 失败,请确认你在 git 仓库中且 main 分支存在")
sys.exit(1)
return result.stdout
def review_code(diff_text: str) -> str:
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-sonnet-4-20250514",
max_tokens=1024,
messages=[
{
"role": "user",
"content": f"""你是一名严格的代码审查员。请审查以下 git diff,
指出潜在 bug、性能问题、安全风险和可读性问题。
用中文回复,按文件分组列出问题,没有问题就跳过该文件。
diff:
{diff_text}"""
}
]
)
return response.content[0].text
if __name__ == "__main__":
diff = get_git_diff()
if not diff.strip():
print("没有检测到变更,跳过审查。")
sys.exit(0)
print(review_code(diff))
把这个脚本挂到 CI pipeline 或 pre-commit hook 里,它就从"试试看"变成了"工作流的一部分"。这正是 PMF 的微观证据——产品从可选变成必选。
为什么是这两家先触线
Anthropic 和 OpenAI 之外,Google(Gemini)、Meta(Llama 开源)、Mistral 都在模型能力上接近甚至局部领先,但 PMF 的差距不在模型,而在产品触达:
| 维度 | OpenAI | Anthropic | 其他 |
|---|---|---|---|
| 直接面向用户的付费产品 | ChatGPT Plus/Team/Enterprise | Claude Pro/Team | 大部分依赖第三方分发 |
| 开发者 SDK 生态成熟度 | 高,文档和社区活跃 | 中高,快速增长 | 参差不齐 |
| 用户工作流嵌入深度 | 插件、GPTs、API 三层 | API + Artifacts 为主 | 多数停留在 API 层 |
Meta 的 Llama 系列在开源社区影响力巨大,但 Meta 本身没有面向终端用户的付费 AI 产品——PMF 的验证主体不存在。Google 的 Gemini 通过 Google One 捆绑分发,但捆绑销售和用户主动付费是不同的信号。
PMF 不等于终局
找到 PMF 是生存问题,不是胜利宣言。几个需要警惕的边界:
成本结构未收敛。 每次推理都在烧算力,订阅收入能否覆盖推理成本 + 研发成本 + 前期训练摊销,目前没有公开数据能证实。PMF 只证明了需求侧成立,供给侧的经济学可能仍然脆弱。
PMF 的场景可能窄于想象。 当前付费用户高度集中在开发者、内容创作者、分析师群体。大众市场的付费转化率是否同样健康,证据不足。如果 PMF 只在 5% 的人群中成立,那是一家好公司,但不是行业级别的范式转换。
竞争正在从模型层转向产品层。 一旦模型能力趋于同质化(这在 6-12 个月内很可能发生),用户切换成本会骤降。ChatGPT 的品牌和习惯惯性是护城河,但不是不可逾越的护城河。
给开发者和团队的实操建议
如果你在评估是否要把 Anthropic 或 OpenAI 的产品嵌入自己的工作流或商业产品,以下是一个简化的决策检查清单:
- 先跑 30 天付费实验。 不要用免费额度做判断——免费层的使用模式和行为与付费后完全不同。花 20 美元买一个月订阅,真实用满 30 天。
- 记录使用频率和场景。 每天用了几次?解决了什么问题?如果 30 天后你发现自己只在 3 个场景里反复使用,那 3 个场景就是 PMF 在你身上的微观投影。
- 算清单位经济学。 对 API 用户来说,每个请求的成本和它替代的人力成本之间的比值,决定了这条链路是否可持续。一个简单的监控脚本:
# 用 llm 命令行工具(Simon Willison 开发)追踪每日 API 调用成本
# 安装:pip install llm && llm install llm-anthropic && llm keys set anthropic
# 然后在 .bashrc 或 .zshrc 中加入以下函数
daily_ai_cost() {
# 统计今天通过 llm 命令发出的请求和估算费用
# 注意:这只是本地记录的估算,不是 Anthropic/OpenAI 的官方账单
local log_file="$HOME/.llm_usage_log"
local today=$(date +%Y-%m-%d)
echo "=== $today 的 LLM 使用记录 ==="
grep "$today" "$log_file" 2>/dev/null || echo "无记录"
echo ""
echo "提示:完整账单请查看 Anthropic/OpenAI 控制台"
echo "Anthropic: https://console.anthropic.com/settings/billing"
echo "OpenAI: https://platform.openai.com/settings/organization/billing/overview"
}
# 每次调用后自动记录(加到 llm 的 alias 中)
alias llm='llm; echo "$(date +%Y-%m-%d_%H:%M) model=$(llm models default) cost=estimated" >> $HOME/.llm_usage_log'
- 设计切换预案。 在架构上保持模型供应商的可替换性——用抽象层(如上面提到的
llm工具,或 LiteLLM 这类代理)隔离具体 API。PMF 成立时你受益,PMF 松动时你能快速迁移。
PMF 不是终点,是起点。Anthropic 和 OpenAI 证明了有人愿意持续付费使用 AI——这比任何基准测试分数都更有说服力。但付费意愿的持久性、成本结构的收敛、竞争壁垒的厚度,这三个问题仍然悬而未决。作为用户和开发者,最好的姿态是:认真用,认真算,认真准备切换。