5 月 27 日零点,小米 MiMo-V2.5 系列大模型 API 完成了一次堪称"断崖式"的永久调价——最高降幅 99%,同时砍掉了上下文窗口档位的区分,Token Plan 的额度也直接拉到原来的 5-8 倍。对于已经在用或准备接入 MiMo 的开发者来说,这次调整不只是账单数字变小,计费模型本身变了,值得重新算一遍成本。
降幅到底有多大?
"最高降幅 99%"听起来夸张,但放在大模型 API 市场里并不罕见——不少厂商的"旗舰档"定价本就是锚定心理预期,实际走量靠的是大幅折扣。关键信息是:不再区分上下文窗口。这意味着短文本和长文本调用统一价格,之前按窗口长度阶梯加价的规则消失了。
对开发者而言,最直接的影响是:
- 写摘要、做短对话和跑长文档 RAG,每 token 成本一致,不用再纠结"要不要截断上下文省钱"。
- 长上下文场景(比如全文分析、多轮对话记忆)的成本可能从"用不起"变成"随便用"。
Token Plan:额度翻 5-8 倍,规则更透明
Token Plan 是小米面向批量用户的预付费套餐。本次调整后:
- 额度提升至原来的 5-8 倍——相当于同样的钱,可用 token 数量翻了数倍。
- 计费规则简化,不再有复杂的窗口档位系数,一个单价走天下。
如果你之前因为额度不够而反复充值,现在可以重新评估一次充值能覆盖的调用规模。
实际接入:用 Python 调用 MiMo-V2.5
不管价格怎么变,接入方式不变。下面给出一个可直接运行的 Python 示例,调用 MiMo-V2.5 的聊天补全接口。你需要先在小米开放平台获取 API Key。
import requests
import os
API_KEY = os.environ.get("MIMO_API_KEY", "your-api-key-here")
BASE_URL = "https://api.mio.tech/v1" # 小米 MiMo API 基地址,以官方文档为准
def chat(prompt: str, model: str = "mimo-v2.5", max_tokens: int = 1024):
"""调用 MiMo-V2.5 聊天补全接口"""
headers = {
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json",
}
payload = {
"model": model,
"messages": [{"role": "user", "content": prompt}],
"max_tokens": max_tokens,
}
resp = requests.post(f"{BASE_URL}/chat/completions", headers=headers, json=payload, timeout=30)
resp.raise_for_status()
data = resp.json()
content = data["choices"][0]["message"]["content"]
usage = data["usage"]
print(f"回复: {content}")
print(f"Token 用量 — prompt: {usage['prompt_tokens']}, completion: {usage['completion_tokens']}, total: {usage['total_tokens']}")
# 短文本调用
chat("用三句话解释什么是向量数据库")
# 长上下文调用——现在和短文本同价
long_doc = """
(此处粘贴一篇 5000 字的技术文档全文)
"""
chat(f"请为以下文档撰写执行摘要,不超过 300 字:\n\n{long_doc}", max_tokens=512)
运行前做两件事:
- 把
your-api-key-here替换成真实 Key,或通过环境变量MIMO_API_KEY传入。 - 确认
BASE_URL和model名称与小米官方最新文档一致——厂商调价时偶尔会同步更新端点。
算一笔账:调价后的成本对比
假设你每天处理 10 万条短文本摘要请求,平均每条 prompt 200 token、completion 100 token:
# 调价前:短上下文单价 0.002 元/千 token,长上下文 0.01 元/千 token
# 调价后:统一单价 0.0005 元/千 token(示例价格,以官方公布为准)
daily_tokens = 100_000 * 300 # 30M tokens/天
price_before = daily_tokens / 1000 * 0.002 # 短文本旧价
price_after = daily_tokens / 1000 * 0.0005 # 新统一价
print(f"调价前日成本: ¥{price_before:.2f}")
print(f"调价后日成本: ¥{price_after:.2f}")
print(f"降幅: {(price_before - price_after) / price_before * 100:.1f}%")
输出大致为:
调价前日成本: ¥60.00
调价后日成本: ¥15.00
降幅: 75.0%
这只是短文本场景的对比。如果换成长上下文(旧价 0.01 元/千 token),降幅会更接近 99% 的宣传值。核心结论:长上下文场景受益最大。
接入前的检查清单
降价是好事,但切换或新接入前仍要确认几件事:
| 检查项 | 说明 |
|---|---|
| API 基地址与模型名 | 调价公告可能伴随端点更新,务必对照最新文档 |
| Token Plan 套餐档位 | 额度翻了 5-8 倍,旧套餐可能已下架,重新选档 |
| 上下文长度上限 | 价格统一了,但模型本身的最大 context window 没变,超长输入仍会被截断或报错 |
| 速率限制与并发 | 降价后用量大概率上涨,留意 RPM / TPM 限额是否需要提额 |
| 输出质量是否一致 | 价格变动不等于模型变动,但建议跑一轮基准测试确认生成质量稳定 |
一句话总结:MiMo-V2.5 这次调价的实质是"长上下文免费化"——统一计费消除了窗口档位的心理门槛,Token Plan 加量则让批量用户直接受益。 如果你之前因为长文本成本过高而放弃 MiMo,现在值得重新跑一轮评测。