小米汽车 World Model：4D 重建与生成深度耦合的自动驾驶世界框架

预计阅读时间：14 分钟

自动驾驶的世界模型要解决一个根本矛盾：重建要求精确还原已观测的现实，生成要求大胆推演未发生的未来。过去这两件事各做各的——重建侧出 NeRF/Gaussian 模型，生成侧出扩散模型，彼此不搭。小米汽车刚发布的 Xiaomi Auto World Model 框架，核心思路是把重建模块 WorldRec 和生成模块 WorldGen 在结构上深度耦合，让它们互相约束：重建给生成打底，生成给重建补缺。

重建侧 WorldRec：增量式 4D Gaussian 全局表示

WorldRec 维护一个随观测增量扩展的 4D Gaussian 全局表示。每一段新驾驶数据进来，不是从头重建，而是在已有表示上追加——3D 几何先投影到自车视角，再与真实观测对齐修正。这带来几个工程上的好处：

增量扩展而非全量重建：新路段数据进来后，Gaussian 点云只做局部增补和微调，计算量和存储量随里程线性增长，而不是每跑一段就重算一遍。
4D 而非 3D：时间维度被编码进 Gaussian 属性（比如时变 opacity 或动态位移），静态场景和动态物体共享同一套表示，不需要额外拆分动静管线。
全局一致性：所有观测段共享同一个全局坐标系下的 Gaussian 场，跨路段拼接时天然对齐，不会出现 NeRF 分段重建后拼接缝的问题。

生成侧 WorldGen：在重建地基上推演未来

WorldGen 的输入不是裸文本或随机噪声，而是 WorldRec 已经建好的 4D Gaussian 场。生成模块从这个几何地基出发，推演自车未来几秒的运动轨迹与周围场景变化。耦合的关键在于：

几何约束生成：WorldRec 提供的 3D 投影充当生成时的硬约束——推演出的未来帧必须与已有几何一致，不能凭空造出一条不存在的车道或一栋凭空出现的建筑。
生成反哺重建：WorldGen 推演的未来场景如果与后续实际观测偏差大，偏差信号回传给 WorldRec，驱动对应区域的 Gaussian 增量修正。这形成了一个闭环：观测→重建→生成→新观测→修正。

重建与生成的耦合结构

用一个简化示意把耦合逻辑画清楚：

观测数据 ──→ WorldRec (4D Gaussian 全局表示)
                  │
                  ├── 3D几何投影 ──→ WorldGen (未来场景推演)
                  │                        │
                  │                        ├── 生成帧受几何约束
                  │                        │
新观测 ───────────────────────────────────→ 偏差信号回传 WorldRec
                                              │
                                              ├── 增量修正 Gaussian

这种结构让两个模块不再是独立管线，而是共享表示、双向校验的闭环系统。对自动驾驶来说，这意味着世界模型不是"先建好世界再想象未来"的两步走，而是"边建边想、想错了就改"的持续迭代。

实践启发：用 4D Gaussian 做增量场景表示的最小原型

Xiaomi Auto World Model 的完整框架尚未开源，但其核心思路——增量式 4D Gaussian 全局表示 + 重建生成耦合——可以在开源工具上搭一个最小原型验证可行性。下面给出一个基于 gsplat（开源 3D Gaussian Splatting 库）的简化 Python 示例，演示增量扩展和几何投影约束的基本流程。

假设与边界：以下代码是概念验证原型，不包含小米框架的实际实现细节。WorldGen 侧用简化逻辑模拟，真实生成模块需要扩散模型或 Transformer 架构。

"""
4D Gaussian 增量场景表示 + 重建生成耦合的最小原型
依赖: pip install gsplat torch numpy
"""

import torch
import numpy as np
from gsplat import GaussianModel


class WorldRecIncremental:
    """增量式 4D Gaussian 全局表示管理器"""

    def __init__(self, device="cuda"):
        self.gaussians = GaussianModel(device=device)
        self.global_frame_id = 0  # 全局时间戳计数器
        self.device = device

    def add_observation(self, images: list, poses: list, timestamps: list):
        """
        增量添加新观测段。
        images: 该段的 RGB 图像列表
        poses: 对应相机位姿 (4x4 变换矩阵)
        timestamps: 每帧的全局时间戳
        """
        # 新观测段初始化点云（用 COLMAP 或深度估计）
        new_points, new_colors = self._init_points_from_depth(images, poses)

        # 为新 Gaussian 点赋予时间属性（4D 编码）
        time_attrs = torch.tensor(
            timestamps, dtype=torch.float32, device=self.device
        ).repeat(len(new_points))

        # 增量合并到全局表示，而非全量重建
        self.gaussians.add_points(
            positions=new_points,
            colors=new_colors,
            # gsplat 支持自定义属性，这里把时间编码进 opacity 的动态部分
            extra_attrs={"time_offset": time_attrs},
        )
        self.global_frame_id = max(timestamps) + 1

        # 在已有全局表示上做局部微调（只优化新增区域的 Gaussian）
        self._local_refine(images, poses, region=new_points)

    def project_to_ego_view(self, ego_pose: torch.Tensor):
        """
        将全局 3D Gaussian 投影到自车当前视角，
        供 WorldGen 作为几何约束使用。
        """
        # 变换 Gaussian 中心点到自车坐标系
        positions = self.gaussians.get_positions()
        ego_positions = self._transform_to_ego(positions, ego_pose)

        # 投影到 2D，生成几何约束图（深度 + 语义轮廓）
        depth_map, semantic_mask = self._render_ego_view(ego_positions)
        return depth_map, semantic_mask

    def incremental_correct(self, deviation_map: torch.Tensor):
        """
        接收 WorldGen 回传的偏差信号，增量修正对应区域的 Gaussian。
        deviation_map: 生成帧与实际观测的偏差热力图
        """
        # 定位偏差大的区域
        hot_regions = self._locate_high_deviation(deviation_map)
        # 只对这些区域的 Gaussian 做梯度更新
        self.gaussians.refine_region(hot_regions, steps=50)

    # ---- 内部辅助方法（简化实现） ----

    def _init_points_from_depth(self, images, poses):
        """用深度估计初始化点云（实际应接 MVS/深度网络）"""
        n_points = 5000  # 每段初始点数
        points = torch.randn(n_points, 3, device=self.device) * 10
        colors = torch.rand(n_points, 3, device=self.device)
        return points, colors

    def _local_refine(self, images, poses, region):
        """只优化新增区域附近的 Gaussian（冻结其余部分）"""
        # 简化：实际应做分区域梯度冻结 + 局部 Adam 优化
        pass

    def _transform_to_ego(self, positions, ego_pose):
        """全局坐标 → 自车坐标变换"""
        R = ego_pose[:3, :3]
        t = ego_pose[:3, 3]
        return (positions @ R.T) + t

    def _render_ego_view(self, ego_positions):
        """投影渲染，输出深度图和语义掩码"""
        depth = ego_positions[:, 2].clone()  # z 轴作深度
        semantic = (depth > 5).float()  # 简化语义分割
        return depth, semantic

    def _locate_high_deviation(self, deviation_map):
        """偏差热力图 → 需修正的 3D 区域索引"""
        threshold = 0.3
        hot_mask = deviation_map > threshold
        return hot_mask


class WorldGenConstrained:
    """受 WorldRec 几何约束的生成模块（简化模拟）"""

    def __init__(self, worldrec: WorldRecIncremental):
        self.worldrec = worldrec

    def predict_future(self, ego_pose_now: torch.Tensor, horizon_sec: float = 3.0):
        """
        从当前自车视角推演未来 horizon_sec 秒的场景。
        关键：生成受 WorldRec 投影的几何约束。
        """
        # 第一步：获取重建侧的几何约束
        depth_constraint, semantic_constraint = self.worldrec.project_to_ego_view(
            ego_pose_now
        )

        # 第二步：基于约束推演未来帧（真实实现用扩散模型/Transformer）
        # 这里用简化逻辑演示约束注入
        future_frames = self._generate_with_constraints(
            depth_constraint, semantic_constraint, horizon_sec
        )
        return future_frames

    def _generate_with_constraints(self, depth, semantic, horizon):
        """
        简化版：用深度约束过滤不可能的生成结果。
        真实实现中，约束应注入扩散模型的 conditioning 或
        Transformer 的 cross-attention。
        """
        n_future_steps = int(horizon * 10)  # 10Hz 推演
        frames = []
        for i in range(n_future_steps):
            # 生成候选帧（简化：随机扰动深度图模拟生成）
            candidate_depth = depth + torch.randn_like(depth) * 0.1 * (i + 1)

            # 约束校验：生成深度不能偏离重建深度太远
            # 静态区域（semantic==0）偏差阈值更严
            static_mask = semantic < 0.5
            deviation = torch.abs(candidate_depth - depth)
            candidate_depth[static_mask & (deviation > 0.5)] = depth[
                static_mask & (deviation > 0.5)
            ]  # 硬约束回退

            frames.append(candidate_depth)
        return frames


# ---- 运行最小原型 ----

if __name__ == "__main__":
    device = "cuda" if torch.cuda.is_available() else "cpu"

    # 初始化增量重建模块
    worldrec = WorldRecIncremental(device=device)

    # 模拟第一段驾驶观测
    poses1 = [torch.eye(4, device=device) for _ in range(10)]
    timestamps1 = list(range(10))
    worldrec.add_observation(
        images=["frame_0.png"] * 10, poses=poses1, timestamps=timestamps1
    )
    print(f"段1后 Gaussian 点数: {worldrec.gaussians.n_points}")

    # 模拟第二段驾驶观测（增量扩展）
    poses2 = [torch.eye(4, device=device) for _ in range(10)]
    timestamps2 = list(range(10, 20))
    worldrec.add_observation(
        images=["frame_10.png"] * 10, poses=poses2, timestamps=timestamps2
    )
    print(f"段2后 Gaussian 点数: {worldrec.gaussians.n_points}")

    # 初始化受约束的生成模块
    worldgen = WorldGenConstrained(worldrec)

    # 当前自车位姿
    ego_pose = torch.eye(4, device=device)
    ego_pose[0, 3] = 5.0  # 自车前移 5m

    # 推演未来 3 秒
    future = worldgen.predict_future(ego_pose, horizon_sec=3.0)
    print(f"推演帧数: {len(future)}, 首帧深度范围: {future[0].min():.2f}-{future[0].max():.2f}")

    # 模拟偏差回传修正
    deviation = torch.rand(100, device=device)  # 简化偏差图
    worldrec.incremental_correct(deviation)
    print("偏差修正完成")

运行前需要安装依赖：

pip install gsplat torch numpy

原型要点解读：

WorldRecIncremental.add_observation 只做增量合并和局部微调，不重算全局——对应小米框架中"随观测增量扩展"的设计。
project_to_ego_view 把全局 3D Gaussian 投影到自车视角，输出深度和语义约束——这是 WorldRec 给 WorldGen "打地基"的关键接口。
WorldGenConstrained._generate_with_constraints 中静态区域偏差被硬约束回退，演示了"生成受重建几何约束"的核心思路。真实实现中这步应该用条件扩散或 cross-attention 注入。
incremental_correct 接收偏差信号只修正局部区域，对应"生成反哺重建"的闭环。

落地考量与风险

计算代价：4D Gaussian 全局表示随里程增长，长途场景下点云规模可能达到百万级。增量扩展避免了全量重建，但渲染和投影的计算量仍然随点云规模增长。实际部署需要分层管理——近处高精度、远处低精度，或按驾驶频率做区域淘汰。

动态物体处理：4D 编码把时间维度塞进 Gaussian 属性，但高速动态物体（行人、对向来车）的轨迹推演精度取决于 WorldGen 的生成能力。如果生成侧对动态物体推演偏差大，偏差回传修正的延迟可能来不及应对紧急场景。

闭环延迟：观测→重建→生成→新观测→修正的闭环在离线训练时没问题，在线实时运行时每个环节都有延迟。自动驾驶决策需要的推演窗口通常在 3-5 秒，闭环修正必须在更短周期内完成，否则"想错了再改"就来不及了。

开放问题：框架目前公布的是架构思路，关键细节（4D Gaussian 的具体时间编码方式、WorldGen 的生成架构、闭环修正的梯度传播路径）尚未完全公开。社区复现和验证还需要等更详细的论文或开源代码。

小米这个框架的价值不在于某个单一模块的技术突破，而在于把重建和生成从两条独立管线拧成一根双向传导的电缆。对做自动驾驶世界模型的团队来说，值得认真思考的点是：你的重建模块和生成模块之间，到底共享了什么表示？是只共享输出（重建帧喂给生成），还是共享结构（几何约束注入生成、偏差信号回传重建）？ 后者才是耦合，前者只是串联。