小米 MiMo-V2.5 API 降价 99%：长上下文不再单独计费，Token Plan 用量翻 5-8 倍

预计阅读时间：7 分钟

5 月 27 日零点，小米 MiMo-V2.5 系列大模型 API 完成了一次堪称"断崖式"的永久调价——最高降幅 99%，同时砍掉了上下文窗口档位的区分，Token Plan 的额度也直接拉到原来的 5-8 倍。对于已经在用或准备接入 MiMo 的开发者来说，这次调整不只是账单数字变小，计费模型本身变了，值得重新算一遍成本。

降幅到底有多大？

"最高降幅 99%"听起来夸张，但放在大模型 API 市场里并不罕见——不少厂商的"旗舰档"定价本就是锚定心理预期，实际走量靠的是大幅折扣。关键信息是：不再区分上下文窗口。这意味着短文本和长文本调用统一价格，之前按窗口长度阶梯加价的规则消失了。

对开发者而言，最直接的影响是：

写摘要、做短对话和跑长文档 RAG，每 token 成本一致，不用再纠结"要不要截断上下文省钱"。
长上下文场景（比如全文分析、多轮对话记忆）的成本可能从"用不起"变成"随便用"。

Token Plan：额度翻 5-8 倍，规则更透明

Token Plan 是小米面向批量用户的预付费套餐。本次调整后：

额度提升至原来的 5-8 倍——相当于同样的钱，可用 token 数量翻了数倍。
计费规则简化，不再有复杂的窗口档位系数，一个单价走天下。

如果你之前因为额度不够而反复充值，现在可以重新评估一次充值能覆盖的调用规模。

实际接入：用 Python 调用 MiMo-V2.5

不管价格怎么变，接入方式不变。下面给出一个可直接运行的 Python 示例，调用 MiMo-V2.5 的聊天补全接口。你需要先在小米开放平台获取 API Key。

import requests
import os

API_KEY = os.environ.get("MIMO_API_KEY", "your-api-key-here")
BASE_URL = "https://api.mio.tech/v1"  # 小米 MiMo API 基地址，以官方文档为准

def chat(prompt: str, model: str = "mimo-v2.5", max_tokens: int = 1024):
    """调用 MiMo-V2.5 聊天补全接口"""
    headers = {
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json",
    }
    payload = {
        "model": model,
        "messages": [{"role": "user", "content": prompt}],
        "max_tokens": max_tokens,
    }
    resp = requests.post(f"{BASE_URL}/chat/completions", headers=headers, json=payload, timeout=30)
    resp.raise_for_status()
    data = resp.json()
    content = data["choices"][0]["message"]["content"]
    usage = data["usage"]
    print(f"回复: {content}")
    print(f"Token 用量 — prompt: {usage['prompt_tokens']}, completion: {usage['completion_tokens']}, total: {usage['total_tokens']}")

# 短文本调用
chat("用三句话解释什么是向量数据库")

# 长上下文调用——现在和短文本同价
long_doc = """
（此处粘贴一篇 5000 字的技术文档全文）
"""
chat(f"请为以下文档撰写执行摘要，不超过 300 字：\n\n{long_doc}", max_tokens=512)

运行前做两件事：

把 your-api-key-here 替换成真实 Key，或通过环境变量 MIMO_API_KEY 传入。
确认 BASE_URL 和 model 名称与小米官方最新文档一致——厂商调价时偶尔会同步更新端点。

算一笔账：调价后的成本对比

假设你每天处理 10 万条短文本摘要请求，平均每条 prompt 200 token、completion 100 token：

# 调价前：短上下文单价 0.002 元/千 token，长上下文 0.01 元/千 token
# 调价后：统一单价 0.0005 元/千 token（示例价格，以官方公布为准）

daily_tokens = 100_000 * 300  # 30M tokens/天

price_before = daily_tokens / 1000 * 0.002   # 短文本旧价
price_after  = daily_tokens / 1000 * 0.0005  # 新统一价

print(f"调价前日成本: ¥{price_before:.2f}")
print(f"调价后日成本: ¥{price_after:.2f}")
print(f"降幅: {(price_before - price_after) / price_before * 100:.1f}%")

输出大致为：

调价前日成本: ¥60.00
调价后日成本: ¥15.00
降幅: 75.0%

这只是短文本场景的对比。如果换成长上下文（旧价 0.01 元/千 token），降幅会更接近 99% 的宣传值。核心结论：长上下文场景受益最大。

接入前的检查清单

降价是好事，但切换或新接入前仍要确认几件事：

检查项	说明
API 基地址与模型名	调价公告可能伴随端点更新，务必对照最新文档
Token Plan 套餐档位	额度翻了 5-8 倍，旧套餐可能已下架，重新选档
上下文长度上限	价格统一了，但模型本身的最大 context window 没变，超长输入仍会被截断或报错
速率限制与并发	降价后用量大概率上涨，留意 RPM / TPM 限额是否需要提额
输出质量是否一致	价格变动不等于模型变动，但建议跑一轮基准测试确认生成质量稳定

一句话总结：MiMo-V2.5 这次调价的实质是"长上下文免费化"——统一计费消除了窗口档位的心理门槛，Token Plan 加量则让批量用户直接受益。 如果你之前因为长文本成本过高而放弃 MiMo，现在值得重新跑一轮评测。