AI 硬件上市两个月后，真正值得复盘的是什么

预计阅读时间：11 分钟

PocketClaw 作为一款 AI 硬件产品，上市两个月后做了一次公开复盘。这类复盘在行业里并不多见——大多数 AI 硬件团队要么在发布前疯狂造势，要么在销量不及预期后沉默退场，很少有人愿意把"真实数据"摊开来讲。

这恰恰是开发者最需要的信息：一款 AI 硬件从概念到量产，中间踩过哪些坑？用户拿到手后的真实反馈和预想有多大差距？如果你也打算做 AI 硬件或正在评估是否采购，这些复盘结论比任何营销文案都更有参考价值。

从"能跑模型"到"能卖产品"，差距在哪

AI 硬件的原型阶段通常很顺利：选一块算力芯片，跑一个量化后的模型，demo 效果惊艳，投资人点头。但量产阶段的问题往往不在模型本身——

功耗与散热：实验室里插着电源跑没问题，揣在口袋里连续工作 30 分钟，芯片降频、外壳发烫、电池掉得比手机还快。
延迟感知：云端推理 200ms 用户觉得"还行"，本地推理 80ms 但加上预处理和后处理，实际体感延迟可能反而更高，因为用户对本地设备的期望是"即时"。
场景匹配：模型在 benchmark 上表现好，不代表在用户真实使用场景（嘈杂环境、低分辨率输入、不稳定的网络）下还能保持同样的水准。

这些问题的共性是：技术指标达标了，但产品体验没达标。复盘的价值就在于把这类"隐性失败"暴露出来。

用户拿到手之后，和你预想的完全不一样

硬件产品的一个残酷现实：用户不会按你设计的方式使用它。

常见的偏差包括：

你设计了语音交互为主，用户却更习惯按键触发。
你预设了"随身 AI 助手"定位，用户实际只用来做某一件特定的事（比如翻译、录音转文字），其他功能几乎不碰。
你精心调优了模型参数，用户却更在意开机速度、连接稳定性和外观手感。

这些偏差不是"用户不懂"，而是产品设计没有充分尊重真实使用习惯。两个月的数据足够暴露这些问题——哪些功能日活高、哪些功能被忽略、退货理由集中在什么维度。

实践：给 AI 硬件搭一个最小可用的本地推理验证环境

如果你正在评估 AI 硬件的可行性，在投入量产之前，先用一套低成本方案验证"本地推理 + 硬件交互"的完整链路。下面是一个基于 Raspberry Pi + ONNX Runtime 的最小验证方案，可以跑在大多数边缘设备上。

1. 模型量化与导出

假设你有一个小型文本分类模型（意图识别），先导出为 ONNX 并量化：

# export_and_quantize.py
import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer

model_name = "your-org/intent-classifier-small"
model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 导出为 ONNX
dummy_input = tokenizer("帮我打开客厅的灯", return_tensors="pt")
torch.onnx.export(
    model,
    (dummy_input["input_ids"], dummy_input["attention_mask"]),
    "intent_model.onnx",
    input_names=["input_ids", "attention_mask"],
    output_names=["logits"],
    dynamic_axes={
        "input_ids": {0: "batch", 1: "seq_len"},
        "attention_mask": {0: "batch", 1: "seq_len"},
    },
    opset_version=14,
)

# 用 onnxruntime 量化（需要先安装 onnxruntime-tools）
# 命令行方式更简洁：
# python -m onnxruntime.quantization.preprocess --input intent_model.onnx --output intent_model_preprocessed.onnx

量化步骤用命令行完成：

# 安装依赖
pip install onnxruntime onnx

# 预处理模型（量化前必须步骤）
python -m onnxruntime.quantization.preprocess \
  --input intent_model.onnx \
  --output intent_model_preprocessed.onnx

# 执行 INT8 动态量化
python -c "
from onnxruntime.quantization import quantize_dynamic, QuantType
quantize_dynamic(
    'intent_model_preprocessed.onnx',
    'intent_model_int8.onnx',
    weight_type=QuantType.QInt8,
)
print('量化完成，模型已保存为 intent_model_int8.onnx')
"

2. 在边缘设备上跑推理并测量延迟

# edge_inference_benchmark.py
"""在边缘设备上运行 ONNX 推理并测量延迟"""
import time
import numpy as np
import onnxruntime as ort

# 加载量化模型
session = ort.InferenceSession(
    "intent_model_int8.onnx",
    providers=["CPUExecutionProvider"],  # 边缘设备通常只有 CPU
)

# 模拟用户输入（实际项目中替换为真实 tokenizer 输出）
input_ids = np.array([[101, 3352, 1059, 2140, 749, 1383, 639, 102]], dtype=np.int64)
attention_mask = np.array([[1, 1, 1, 1, 1, 1, 1, 1]], dtype=np.int64)

# 单次推理
result = session.run(
    ["logits"],
    {"input_ids": input_ids, "attention_mask": attention_mask},
)
print(f"推理结果 logits: {result[0]}")

# 批量延迟测试（100 次取均值和 P95）
latencies = []
for _ in range(100):
    start = time.perf_counter()
    session.run(
        ["logits"],
        {"input_ids": input_ids, "attention_mask": attention_mask},
    )
    latencies.append((time.perf_counter() - start) * 1000)  # 转为 ms

avg = np.mean(latencies)
p95 = np.percentile(latencies, 95)
print(f"平均延迟: {avg:.1f}ms | P95 延迟: {p95:.1f}ms")
print(f"如果 P95 > 150ms，在硬件上用户会感知到明显等待，需要进一步优化")

3. 把延迟数据记录下来，做版本对比

# 每次模型变更后跑一次 benchmark，结果追加到 CSV
# 方便对比不同量化策略、不同芯片的实际表现

python edge_inference_benchmark.py | tee /tmp/bench_result.txt

# 提取关键指标写入记录
echo "$(date +%Y-%m-%d),intent_model_int8,$(grep '平均延迟' /tmp/bench_result.txt | grep -oP '[\d.]+ms' | head -1),$(grep 'P95' /tmp/bench_result.txt | grep -oP '[\d.]+ms' | head -1)" >> bench_history.csv

# 查看历史对比
column -t -s',' bench_history.csv

这套方案的成本极低（一块 Raspberry Pi 4B 约 400 元），但能帮你回答一个关键问题：你的模型在目标硬件上的真实推理延迟是多少？ 这个数字决定了交互设计的天花板——如果 P95 延迟超过 200ms，语音交互的体验就会明显打折，你需要要么换更轻的模型，要么换更强的芯片，要么改交互方式（按键触发 + 异步返回）。

复盘之后，下一步怎么走

基于这类 AI 硬件复盘的常见结论，给正在做或准备做 AI 硬件的团队几条务实建议：

1. 先跑 100 个用户的真实场景，再决定量产规模

内部测试永远不够。找 100 个目标用户，让他们在真实环境里用两周，收集：功能使用频率、误触发率、抱怨最多的非功能性问题（发热、续航、连接稳定性）。这些数据比任何内部评测都更能预测量产后的口碑。

2. 把"非 AI 部分"的优先级提上来

AI 硬件最容易犯的错误是过度投入模型能力、低估工程基础。开机速度、蓝牙/Wi-Fi 连接可靠性、充电速度、外壳手感——这些"传统硬件指标"对用户满意度的影响往往大于模型参数量。复盘数据通常会验证这一点。

3. 为延迟设硬性门槛，不达标就砍功能

本地推理的 P95 延迟超过 150ms 的功能，要么改为异步返回（先给用户一个"正在处理"的反馈），要么直接砍掉。用户对硬件的耐心远低于对 App 的耐心——App 卡一下可以等，硬件卡一下就是"这东西不行"。

4. 保留快速迭代模型的能力

硬件固件一旦烧录就很难改，但模型可以 OTA 更新。设计时确保模型文件与固件解耦，通过云端下发新模型版本。这样你可以在上市后根据真实数据持续优化，而不是被初始模型锁死。

5. 做好"功能被窄化使用"的心理准备

你的产品可能只被用户用来做一件事。这不是失败——这意味着你找到了真实需求。复盘时关注那个高频功能，把它做到极致，比维持十个半成品功能更有价值。

AI 硬件的真实复盘之所以稀缺，是因为它需要承认"预想和现实的差距"。但正是这些差距里藏着最有价值的工程决策。如果你在做类似产品，不妨也给自己设一个两个月复盘节点——不是为了证明成功，而是为了看清问题。