OneVL：用一个模型干完视觉四大任务，小米的开源思路

预计阅读时间：8 分钟

视觉-语言模型这几年越做越大，但一个尴尬的现实是：你想让它同时干识别、检测、问答、分割四件事，最常见的做法是给每个任务塞一个"专家头"。推理时四套参数轮番上阵，GPU 显存吃满，延迟翻倍。小米研究院刚开源的 OneVL，核心命题很简单——能不能一套权重、一次推理，把这四件事都搞定？

多任务的老痛点：专家混合的代价

现有主流方案基本走的是 MoE（Mixture of Experts）路线：共享一个视觉编码器，但在下游为每个任务挂独立的适配层或解码头。效果确实不差，但代价堆得很快：

参数膨胀：4 个任务 × N 个专家头，模型体积线性增长。
推理碎片化：不同任务走不同分支，无法 batch 复用，吞吐量受限。
任务间知识不流动：检测专家学到的边界感知，问答专家完全用不上，本质上是四个小模型拼在一起。

OneVL 的切入点就在这里——它不是"去掉专家头然后硬训"，而是从架构层面重新设计任务间的信息共享方式。

OneVL 的架构思路：统一编码 + 任务感知路由

根据小米公布的信息，OneVL 的关键设计可以拆成三层：

统一视觉编码器：所有任务共享同一套视觉特征提取，不做任务级分支。这意味着一张图只过一次 backbone，特征被所有下游任务复用。
任务感知提示（Task Prompt）：不是靠独立参数区分任务，而是通过输入端的任务标识符让模型"知道当前要干什么"。类似于你在 prompt 里加 [DET]、[VQA] 这样的 token，模型内部根据这些信号激活不同的输出模式。
共享解码 + 轻量任务头：主解码器是共享的，只在最终输出层用极轻量的任务特定投影（几个线性层），而非整套专家网络。

这个设计的直接收益：推理时一张图只编码一次，不同任务的 prompt 可以拼进同一个 batch，显存和延迟都大幅下降。

跟 MoE 方案的硬对比

拿一个典型配置做对比（参数量为示意，非源文精确数据）：

维度	MoE 多头方案	OneVL 统一方案
视觉编码次数	每任务各一次	一次共享
任务特定参数量	4 × 完整专家头	4 × 轻量投影层
推理 batch 复用	不可（分支不同）	可（统一解码）
跨任务知识迁移	无（参数隔离）	有（共享编码+解码）

核心 tradeoff 也很明确：MoE 在单任务上限上可能更高（毕竟参数专享），OneVL 胜在综合效率和任务间的正向迁移。如果你的场景是同时跑多个视觉任务的服务端，OneVL 的性价比优势会很直接。

实践：用 OneVL 做一次多任务推理

OneVL 已开源，以下示例基于 HuggingFace 生态的典型加载方式。模型仓库和 API 细节以小米官方发布为准，这里给出一个可改造的骨架代码——假设模型已上架 xiaomi/OneVL（如果实际仓库名不同，替换即可）。

# 依赖安装
# pip install transformers torch pillow

from transformers import AutoModel, AutoProcessor
from PIL import Image
import torch

# 加载模型和处理器（仓库名以官方发布为准）
model_name = "xiaomi/OneVL"  # 替换为实际 repo id
processor = AutoProcessor.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name, trust_remote_code=True)
model.eval()

# 准备同一张图片，但跑四个不同任务
img = Image.open("street_scene.jpg")

# 任务标识符——这是 OneVL 的核心交互方式
tasks = {
    "image_recognition": "[CLS] 请描述这张图片的内容",
    "object_detection":  "[DET] 找出图中所有车辆和行人",
    "visual_qa":         "[VQA] 图中有多少辆红色汽车？",
    "segmentation":      "[SEG] 分割出道路区域",
}

# 一次性编码图片，复用视觉特征
visual_features = model.encode_image(img)

# 对每个任务，只需拼入不同的 task prompt
results = {}
for task_key, prompt in tasks.items():
    inputs = processor(text=prompt, return_tensors="pt")
    # 视觉特征已提前算好，直接注入
    with torch.no_grad():
        output = model.decode(
            visual_features=visual_features,
            text_inputs=inputs,
            task_type=task_key,  # 路由到对应轻量投影头
        )
    results[task_key] = processor.decode(output)

for task, answer in results.items():
    print(f"[{task}] → {answer}")

运行前需要改什么：

model_name 替换为小米实际发布的 HuggingFace 仓库 ID。
street_scene.jpg 替换为你本地的测试图片路径。
任务标识符（[CLS]、[DET] 等）的格式以官方文档为准，这里用的是示意写法。
model.encode_image / model.decode 的接口名可能不同，查阅模型卡片后调整。

关键点在于：视觉编码只做一次，四个任务共享同一份特征——这正是 OneVL 相比 MoE 方案省算力的地方。

如果你想在自己的场景试 OneVL

几个实际落地的判断标准：

同时跑 ≥ 2 个视觉任务：单任务场景下 MoE 专享参数的优势还在，OneVL 的收益需要多任务并发才能兑现。
推理延迟敏感：统一编码 + batch 复用对实时服务（如自动驾驶感知、AR 实时标注）有直接帮助。
数据量有限、想借跨任务迁移：检测任务学到的空间感知能帮分割和问答做得更好，这在数据稀缺场景下尤其有用。
显存预算紧张：一套权重比四套专家头省得多，部署门槛更低。

反过来也要注意：

单任务极致精度场景（比如只做检测、且数据量极大），MoE 专享头可能仍然更优。
OneVL 的任务感知路由依赖 prompt 设计质量，prompt 写得差，模型可能混淆任务边界。
开源初期的模型权重和推理稳定性需要自行验证，生产环境建议先跑基准测试。

小米这次开源的思路不复杂，但踩的痛点很实：视觉多任务的推理成本，不该靠堆参数来换精度。OneVL 给了一个可验证的替代路径——统一编码、prompt 路由、轻量投影。如果你正在做多视觉任务的服务端部署，值得花半天时间拉下来跑个基准对比。