智元开源 AGIBOT WORLD 主题二：不只是成功轨迹，物理交互的完整数据长什么样

预计阅读时间：13 分钟

具身智能的数据集有个长期偏执——只采集成功案例。机器人把杯子放好了、门推开了、螺丝拧紧了，这些"完美轨迹"被反复录制，打包成训练数据。但真实世界不是这样运转的：手滑了、物体偏了、接触力不够、桌面比预想软了一点。这些"失败"和"偏差"恰恰是物理智能最需要学习的部分。

智元最新开源的 AGIBOT WORLD 2026 主题二——"多样交互（Rich Interaction）"，直接对准了这个缺口。这是行业首个聚焦物理交互的开源具身数据集，核心承诺不是"更多成功 demo"，而是把机器人与真实世界之间那些多样、精细、充满接触的物理对话完整还原出来。

为什么"失败数据"比"成功数据"更值钱

传统具身数据采集的逻辑很直觉：任务完成 = 有效数据，任务失败 = 废数据。但这个逻辑在物理交互场景下会制造严重偏差：

策略坍缩：只用成功轨迹训练，模型学到的是"在理想条件下怎么做"，而不是"在条件偏离时怎么调整"。一旦部署环境与采集环境有微小差异——桌面材质不同、物体位置偏移 2cm——策略就会脆断。
接触建模缺失：物理交互的核心是力与形变的实时反馈。成功轨迹往往只记录了"最终状态对了"，中间的接触调整、力矩波动、滑移补偿被压缩成一条平滑曲线，丢失了最关键的物理信息。
泛化瓶颈：一个只在成功数据上训练的模型，面对新物体时的第一反应不是"试探与调整"，而是"直接执行习得的动作"，然后失败。

AGIBOT WORLD 主题二的做法是反过来的：刻意保留甚至重点采集那些"不完美"的交互过程。物体没抓稳时的手指微调、推门遇到阻力后的力矩重新分配、放置物体时桌面弹性反馈导致的姿态修正——这些才是物理智能的真正训练素材。

数据集里到底有什么

根据公告，本期数据集的核心特征可以拆成三层：

接触多样性：不是同一个物体重复抓取 500 次，而是不同材质、不同形状、不同摩擦系数的物体在同一个任务框架下的交互记录。木头、金属、软布、玻璃——每种材质的接触力学特征完全不同，数据集需要覆盖这些差异。

过程精细度：不只是末端执行器的位置轨迹，而是包含力/力矩传感器数据、关节电流（可推算力矩）、触觉传感器信号、视觉观测的多模态同步记录。交互过程中的每一个"接触事件"都有对应的力信号和形变响应。

结果非过滤：成功和失败的轨迹都被保留，并且标注了失败的原因分类——滑移、过力、欠力、定位偏差、环境干扰等。这意味着你可以直接训练"失败诊断"和"策略修正"模块，而不是只能训练"从头执行"。

实践：如何下载和解析具身交互数据集

AGIBOT WORLD 数据集通常以 HDF5 格式发布（这是具身数据的行业标准容器），每条轨迹包含多模态时间序列。下面是一个完整的工作流示例，从下载到解析再到可视化力信号。

前提：假设数据集发布在 Hugging Face 或类似平台（具体发布渠道以智元官方公告为准）。以下示例基于典型具身 HDF5 数据格式，实际字段名需对照官方文档调整。

第一步：安装依赖并下载

# 安装核心依赖
pip install huggingface_hub h5py numpy matplotlib

# 下载数据集（以 Hugging Face 为例，实际 repo 地址见官方公告）
huggingface-cli download Agibot/AGIBOT_WORLD_2026_RichInteraction \
  --repo-type dataset \
  --local-dir ./agibot_world_rich_interaction \
  --local-dir-use-symlinks False

第二步：解析单条轨迹，提取力信号

import h5py
import numpy as np
import matplotlib.pyplot as plt
from pathlib import Path

data_dir = Path("./agibot_world_rich_interaction")

# 找到一条轨迹文件（实际目录结构以官方为准）
traj_files = sorted(data_dir.glob("**/*.h5"))
if not traj_files:
    print("未找到 HDF5 文件，请确认下载路径和目录结构")
    exit(1)

traj_path = traj_files[0]
print(f"解析轨迹: {traj_path.name}")

with h5py.File(traj_path, "r") as f:
    # 打印顶层结构，了解可用字段
    print("数据集顶层键:", list(f.keys()))

    # 典型结构：observations, actions, metadata
    # 力/力矩数据通常在 observations 下
    obs = f["observations"]

    # 提取末端力矩信号（字段名需对照官方文档）
    # 常见命名: force_torque, ft_sensor, wrist_ft 等
    ft_key = None
    for key in obs.keys():
        if "force" in key.lower() or "ft" in key.lower() or "torque" in key.lower():
            ft_key = key
            break

    if ft_key:
        ft_data = np.array(obs[ft_key])  # shape: (T, 6) — [Fx, Fy, Fz, Tx, Ty, Tz]
        print(f"力矩数据形状: {ft_data.shape}")
        print(f"力矩范围: Fx[{ft_data[:,0].min():.2f}, {ft_data[:,0].max():.2f}] N")

        # 可视化接触力变化
        time_steps = np.arange(ft_data.shape[0])
        fig, axes = plt.subplots(2, 1, figsize=(10, 6), sharex=True)

        axes[0].plot(time_steps, ft_data[:, 0], label="Fx", alpha=0.8)
        axes[0].plot(time_steps, ft_data[:, 1], label="Fy", alpha=0.8)
        axes[0].plot(time_steps, ft_data[:, 2], label="Fz", alpha=0.8)
        axes[0].set_ylabel("Force (N)")
        axes[0].legend()
        axes[0].set_title("末端接触力 — 轨迹中的物理对话")

        axes[1].plot(time_steps, ft_data[:, 3], label="Tx", alpha=0.8)
        axes[1].plot(time_steps, ft_data[:, 4], label="Ty", alpha=0.8)
        axes[1].plot(time_steps, ft_data[:, 5], label="Tz", alpha=0.8)
        axes[1].set_ylabel("Torque (N·m)")
        axes[1].set_xlabel("Time step")
        axes[1].legend()

        plt.tight_layout()
        plt.savefig("force_torque_profile.png", dpi=150)
        print("力矩曲线已保存到 force_torque_profile.png")
    else:
        print("未找到力矩字段，可用观测键:", list(obs.keys()))

    # 检查任务结果标注
    if "metadata" in f:
        meta = f["metadata"]
        if "result" in meta.attrs:
            print(f"任务结果: {meta.attrs['result']}")  # success / failure 类型
        if "failure_type" in meta.attrs:
            print(f"失败类型: {meta.attrs['failure_type']}")

第三步：批量筛选失败轨迹，构建修正训练集

import json

success_trajs = []
failure_trajs = []
failure_types = {}

for traj_path in traj_files[:200]:  # 先处理前 200 条做探索
    with h5py.File(traj_path, "r") as f:
        meta = f.get("metadata", None)
        if meta is None:
            continue

        result = meta.attrs.get("result", "unknown")
        if result == "success":
            success_trajs.append(traj_path)
        elif result == "failure":
            failure_trajs.append(traj_path)
            ft = meta.attrs.get("failure_type", "unclassified")
            failure_types[ft] = failure_types.get(ft, 0) + 1

print(f"成功轨迹: {len(success_trajs)}")
print(f"失败轨迹: {len(failure_trajs)}")
print(f"失败类型分布: {json.dumps(failure_types, indent=2)}")

# 关键洞察：失败轨迹的比例和类型分布
# 直接决定了你的策略修正模块需要覆盖哪些场景
ratio = len(failure_trajs) / max(len(success_trajs) + len(failure_trajs), 1)
print(f"失败占比: {ratio:.1%} — 如果低于 20%，数据多样性可能仍不足")

运行前需要根据智元官方发布的实际数据格式调整字段名。核心思路不变：先看结构，再提取力信号，最后按结果分类统计。

用这类数据时要注意什么

力信号标定问题：不同机器人的力/力矩传感器标定方式不同，直接跨机器人混用力数据可能导致数值范围冲突。训练前建议做 per-robot 的力信号归一化，或者至少记录传感器的标定参数。

时间对齐：多模态数据（视觉、力矩、关节角）的采样频率通常不一致。视觉可能是 30Hz，力矩 100Hz，关节角 500Hz。解析时必须做时间戳对齐，否则"看到物体偏移"和"手指开始调整力矩"之间的因果关系会被打乱。

失败标注的粒度：如果数据集只标注了 success/failure 而没有细分失败类型，训练价值会打折。"滑移失败"和"过力失败"需要的修正策略完全不同，混在一起训练会让模型学到模糊的"别失败"而不是具体的"遇到滑移时增加握力"。

数据量与覆盖面的权衡：物理交互的多样性意味着每种接触场景的样本数可能不多。100 种材质 × 5 种任务 × 3 种失败类型 = 1500 个细分类别，每个类别只有几十条轨迹时，训练容易过拟合。考虑用类别平衡采样或元学习框架来缓解。

一个快速检查清单

拿到 AGIBOT WORLD 主题二数据后，建议按这个顺序做质量评估：

结构扫描：用 h5py 打印前 10 条轨迹的顶层键和 metadata 属性，确认字段命名一致性。
失败比例：统计 success/failure 比例，理想范围是 30%-50% 失败率——太高意味着采集质量差，太低意味着多样性不足。
力信号分布：画力矩的直方图，检查是否有传感器饱和（值卡在上限）或噪声过大（基线漂移）。
时间对齐验证：取一条轨迹，检查视觉帧数和力矩步数的时间戳是否可对齐。
材质覆盖：统计 metadata 中物体材质/类型的分布，确认不是某几种材质占 90%。

AGIBOT WORLD 主题二的开放方向是对的——物理智能不能只在成功案例上训练。但数据的价值最终取决于你怎么用它：把失败轨迹当噪声过滤掉，还是当修正策略的核心教材，这是具身智能从"能做 demo"到"能在真实世界工作"的分水岭。