在 AMD MI300X 上跑 DeepSeek-V4-Flash：FP8、Triton 与 AITER 的真实踩坑记录

预计阅读时间：16 分钟

NVIDIA H100 几乎成了大模型推理的"默认答案"，但 AMD Instinct MI300X 的 192 GB HBM3 内存和理论上更高的 FP8 吞吐，让它一直是个被低估的选项。Doubleword 的技术博客最近记录了一次将 DeepSeek-V4-Flash 部署到 MI300X 的完整过程——不是跑个 benchmark 截图就收工，而是把 FP8 精度兼容、Triton 并发边界条件、AITER 内核适配这些硬骨头逐个啃下来。以下是把这次部署的关键决策和实操细节拆解出来的版本。

FP8 精度：不是开关一拨就生效

DeepSeek-V4-Flash 的权重本身就是 FP8 格式存储的，这看起来和 MI300X 的 FP8 算力完美匹配。但实际部署时，"FP8"这个词掩盖了太多细节。

E4M3 vs E5M2 的分歧

AMD MI300X 的 XDNA 架构支持两种 FP8 格式：E4M3（4 位指数、3 位尾数）和 E5M2（5 位指数、2 位尾数）。DeepSeek 模型在训练时主要使用 E4M3 做前向计算、E5M2 做反向梯度累加——这是 NVIDIA H100 上常见的搭配。问题在于，MI300X 的矩阵引擎对 E5M2 的支持路径和 H100 不完全一致，某些融合算子在 E5M2 输入时会退回到更高精度的 fallback 实现，性能直接打折。

实践中更常见的坑是：模型权重文件里混合了两种 FP8 格式，加载时如果不显式指定映射策略，ROCm 的底层库会按默认规则把 E5M2 的权重也走 E4M3 的量化路径，精度损失在注意力层的 softmax 附近会变得肉眼可见——输出重复率上升、长文本连贯性下降。

校准缩放因子的对齐

FP8 量化不是简单截断，每一组权重和激活值都附带一个缩放因子（scale factor）。DeepSeek-V4-Flash 的权重文件里这些 scale 是按 NVIDIA 的量化工具链产出的，直接拿到 ROCm 上用，数值对齐方式有细微差异。具体来说，NVIDIA 的 FP8 GEMM 默认按行缩放（per-row scaling），而 AMD 的 AITER 内核库在某些融合路径下按块缩放（per-block scaling），两者对同一组 scale 的解释不同。

解决方式是在模型加载阶段插入一个 scale 重算步骤：

import torch
import os

def recalibrate_fp8_scales(weight_path, target_device="cuda:0"):
    """
    加载 DeepSeek-V4-Flash 的 FP8 权重，
    将 per-row scale 转换为 AITER 所需的 per-block scale。
    实际部署中 block_size 通常为 128 或 256，
    需根据 AITER 内核版本确认。
    """
    state = torch.load(weight_path, map_location=target_device)
    recalibrated = {}

    block_size = 128  # AITER v0.4 默认块大小，请按实际版本调整

    for name, tensor in state.items():
        if tensor.dtype == torch.float8_e4m3fn:
            # 原始 per-row scale 存在相邻 key 中，命名约定为 xxx.scale
            scale_key = name.replace(".weight", ".weight_scale_inv")
            if scale_key in state:
                row_scales = state[scale_key].float()  # shape: [num_rows]
                num_rows = row_scales.shape[0]

                # 按 block_size 分块，取块内最大 scale 作为块 scale
                padded = torch.nn.functional.pad(
                    row_scales,
                    (0, block_size - num_rows % block_size),
                    value=1.0
                )
                blocked = padded.view(-1, block_size)
                block_scales = blocked.max(dim=1).values  # shape: [num_blocks]

                # 用块 scale 重新量化权重
                weight_fp32 = tensor.float()
                weight_requant = (weight_fp32 * row_scales.unsqueeze(1))
                weight_requant = weight_requant / block_scales.unsqueeze(1)
                recalibrated[name] = weight_requant.to(torch.float8_e4m3fn)
                recalibrated[scale_key.replace("_inv", "_block_inv")] = block_scales
            else:
                recalibrated[name] = tensor
        else:
            recalibrated[name] = tensor

    return recalibrated

# 使用示例（MI300X 上 ROCm 的 device 标记仍为 cuda）
weights = recalibrate_fp8_scales(
    "deepseek-v4-flash/model.fp8.safetensors",
    target_device="cuda:0"
)

这段代码的核心逻辑是：把 per-row 的缩放因子聚合为 per-block 的缩放因子，再用新的块 scale 重新量化权重。实际部署中，block_size 的值必须和你使用的 AITER 内核版本对齐——不同版本的默认块大小可能不同，用错了量化精度会偏移。

Triton 并发：边界条件才是真正的敌人

Triton 是 OpenAI 推出的 GPU 编程语言，在 NVIDIA 平台上已经相当成熟。AMD 的 ROCm 版 Triton（triton-mlir）也在快速迭代，但"能跑"和"跑得稳"之间隔着大量边界条件。

并发 launch 的死锁陷阱

DeepSeek-V4-Flash 的推理框架在多个 attention head 上并行 launch Triton kernel，这是在 H100 上经过验证的优化策略。但在 MI300X 上，当并发 kernel 数量超过 GCD（Graphics Compute Die）的硬件队列深度时，某些 kernel 会卡在提交阶段，表现为推理延迟突然从 50ms 跳到 5000ms 甚至无限挂起。

根本原因是 MI300X 有两个 GCD，每个 GCD 的命令队列深度有限。Triton-mlir 的当前版本在多 GCD 场景下没有自动做队列亲和性调度，所有 kernel 默认往同一个 GCD 提交。当队列溢出时，不会报错，只会静默等待——这就是死锁的来源。

一个实用的 workaround 是在推理启动前显式设置 GCD 亲和性：

# 查看当前 MI300X 的 GCD 拓扑
rocm-smi --showtopo

# 将推理进程绑定到 GCD 0 和 GCD 1 的计算队列
# 方法一：通过环境变量限制可见设备（每个 GCD 视为独立 device）
export HIP_VISIBLE_DEVICES=0  # 单 GCD 模式，牺牲一半内存但避免死锁

# 方法二：在代码中手动分配 kernel 到不同 GCD
# Triton 目前不支持直接指定 GCD，需要通过 HIP stream 间接控制

import torch

def split_gcd_streams():
    """
    在双 GCD 的 MI300X 上创建两个 HIP stream，
    将 attention kernel 分流到不同 GCD。
    注意：此方案依赖 ROCm 6.2+ 的多 stream 支持，
    且需要 Triton kernel 通过 stream 参数提交。
    """
    device = torch.device("cuda:0")
    # MI300X 双 GCD 在 ROCm 中暴露为同一 device 的不同 stream
    stream_gcd0 = torch.cuda.Stream(device=device, priority=0)
    stream_gcd1 = torch.cuda.Stream(device=device, priority=0)

    return stream_gcd0, stream_gcd1

# 在推理循环中使用
stream0, stream1 = split_gcd_streams()

# 假设你有 64 个 attention head，分两组
with torch.cuda.stream(stream0):
    # 前 32 个 head 的 Triton kernel 在此提交
    attention_group0 = triton_attention(q[:32], k[:32], v[:32])

with torch.cuda.stream(stream1):
    # 后 32 个 head 的 Triton kernel 在此提交
    attention_group1 = triton_attention(q[32:], k[32:], v[64:])

# 同步两个 stream
torch.cuda.synchronize()
output = torch.cat([attention_group0, attention_group1], dim=0)

这个分流方案的关键假设是：ROCm 的多 stream 调度器会把不同 stream 的 kernel 分配到不同 GCD。在 ROCm 6.2 之前，这个假设不一定成立——你需要用 rocm-smi 实时监控每个 GCD 的利用率来验证分流是否真的生效。

Triton kernel 的 SM 占用率问题

另一个边界条件是 Triton kernel 在 MI300X 上的 SM（Stream Processor）占用率。H100 有 132 个 SM，MI300X 每个 GCD 有 114 个 SM（共 228 个），但 Triton-mlir 编译出的 kernel 默认 NUM_WARPS=4、NUM_STAGES=2，这在 H100 上刚好填满一个 SM 的寄存器预算，在 MI300X 上却会因为寄存器分配粒度不同导致占用率下降约 15%。

手动调参可以缓解：

# 在 Triton kernel 定义中调整参数
@triton.jit
def flash_attn_kernel(
    Q_ptr, K_ptr, V_ptr, O_ptr,
    stride_qm, stride_kn, stride_vn, stride_om,
    BLOCK_M: tl.constexpr = 64,
    BLOCK_N: tl.constexpr = 64,
    # 关键调整：MI300X 上增加 NUM_STAGES 提升寄存器复用
    NUM_STAGES: tl.constexpr = 4,  # H100 默认 2，MI300X 建议 3-4
    NUM_WARPS: tl.constexpr = 8,   # H100 默认 4，MI300X 建议 8
):
    # kernel body 略
    pass

NUM_STAGES 从 2 提到 4，让每个 SM 多缓存几块 K/V 数据，减少全局内存往返；NUM_WARPS 从 4 提到 8，更好地填满 MI300X 的 wavefront 调度宽度。这两个参数没有万能最优值，需要针对你实际跑的 batch size 和序列长度做微调——建议从上述值开始，用 rocprof 统计 SM 占用率再逐步调整。

AITER 内核库：适配不是换个名字就行

AITER（AMD Instinct Triton Engine Runtime）是 AMD 为 MI300X 提供的融合内核库，定位类似 NVIDIA 的 FlashAttention + CUTLASS 组合。理论上，把 DeepSeek 的推理框架从 NVIDIA 内核切换到 AITER 内核只需要改几行 import——实际上远不止于此。

融合 kernel 的接口差异

DeepSeek-V4-Flash 的推理代码大量使用了 NVIDIA 专有的融合 kernel 接口，比如 flash_attn_varlen（变长序列注意力）和 rmsnorm_with_residual_add（RMSNorm + 残差融合）。AITER 提供了功能等价的 kernel，但接口签名有系统性差异：

功能	NVIDIA 接口	AITER 接口	关键差异
变长注意力	`flash_attn_varlen(q, k, v, cu_seqlens, max_seqlen)`	`aiter_flash_attn(q, k, v, seq_lens, block_table)`	AITER 用 `seq_lens` + `block_table` 替代 `cu_seqlens`，需要预计算块映射表
RMSNorm 融合	`rmsnorm_add(x, residual, weight, eps)`	`aiter_rmsnorm(x, weight, eps, residual_inplace=True)`	AITER 默认原地修改 residual，需要显式关闭如果框架要求保留原始值
MoE 门控融合	`moe_gating_topk(hidden, gating_weight, topk)`	`aiter_moe_sort_and_topk(hidden, gating_weight, topk, num_experts)`	AITER 要求显式传入专家总数，且排序策略不同

适配这些差异最直接的方式是写一层薄薄的 shim：

"""DeepSeek-V4-Flash 推理框架的 AITER shim 层
将 NVIDIA 内核接口映射到 AITER 内核接口。
假设 AITER 已通过 pip install aiter 安装，
且 ROCm 版本 >= 6.2。
"""
import torch
import aiter

def flash_attn_varlen_aiter(
    q, k, v,
    cu_seqlens_q, cu_seqlens_k,
    max_seqlen_q, max_seqlen_k,
    causal=True,
    sm_scale=None,
):
    """
    将 DeepSeek 的 flash_attn_varlen 调用
    转换为 AITER 的 aiter_flash_attn 调用。
    """
    batch_size = cu_seqlens_q.shape[0] - 1

    # 从 cu_seqlens 反推每个序列的实际长度
    seq_lens = cu_seqlens_q[1:] - cu_seqlens_q[:-1]

    # AITER 要求的 block_table：每个序列的 KV block 映射
    # 对于非 PagedAttention 场景，block_table 是简单的连续映射
    block_size = 64  # AITER 默认 KV block 大小
    num_blocks_per_seq = (max_seqlen_k + block_size - 1) // block_size
    total_blocks = num_blocks_per_seq * batch_size

    block_table = torch.arange(
        total_blocks, device=q.device, dtype=torch.int32
    ).view(batch_size, num_blocks_per_seq)

    # 调用 AITER
    output = aiter.flash_attn(
        q, k, v,
        seq_lens=seq_lens,
        block_table=block_table,
        causal=causal,
        sm_scale=sm_scale or 1.0 / (q.shape[-1] ** 0.5),
    )
    return output


def rmsnorm_add_aiter(x, residual, weight, eps=1e-6):
    """
    将 NVIDIA 的 rmsnorm_with_residual_add
    映射到 AITER 的 aiter_rmsnorm。
    关键：关闭 inplace 模式以保留 residual 原始值。
    """
    # AITER 的 rmsnorm 返回归一化结果，
    # 残差加法需要手动完成（因为关闭了 inplace）
    normed = aiter.rmsnorm(x, weight, eps, residual_inplace=False)
    return normed + residual

这个 shim 层的维护成本不高，但有一个隐性风险：AITER 的接口在不同版本间变动较快。上述代码基于 AITER v0.4，如果你用的是更早的版本，seq_lens 参数可能叫 cu_seqlens，block_table 可能不存在。部署前务必对照 AITER 的 changelog 逐项检查。

MoE 部分的专家路由适配

DeepSeek-V4-Flash 的 MoE（Mixture of Experts）层是推理性能的关键瓶颈。在 H100 上，NVIDIA 的 MoE 融合 kernel 会把 topk 选择、专家权重加载、计算三步合成一次 GPU launch。AITER 的 MoE kernel 目前只融合了前两步，计算部分仍然回退到逐专家的独立 GEMM——这意味着在 256 个专家、topk=6 的配置下，MI300X 要发起 6 次独立 GEMM 调用，而 H100 只需 1 次。

这不是软件层面能完全弥补的差距。实际部署中的折中方案是：

减少活跃专家数：如果业务允许，把 topk 从 6 降到 4，GEMM 调用数减少 33%，延迟改善明显。
预加载热门专家：统计推理请求中各专家的激活频率，把高频专家的权重常驻 L2 cache，减少跨 GCD 的 HBM 访问。
批量请求合并：把多个推理请求的同一专家计算合并为一次大 GEMM，提升 MI300X 的矩阵单元利用率。

# 用 rocprof 统计 MoE 层的 GEMM 调用模式
# 输出中每个 "KernelName: aiter_moe_gemm" 就是一次独立 GEMM
rocprof --stats ./run_deepseek_v4_flash.py \
    --model deepseek-v4-flash \
    --batch-size 8 \
    --seq-length 4096 \
    --topk 6

# 查看输出 CSV 中的 KernelExecution 时间分布
# 如果 moe_gemm 占总时间 > 40%，优先优化 MoE 路由

部署前的检查清单

把以上踩坑点汇总成一份可操作的 checklist，在正式部署 MI300X 之前逐项确认：

检查项	验证方法	不通过的后果
ROCm 版本 ≥ 6.2	`rocminfo \| grep version`	Triton-mlir 多 stream 不可用，GCD 死锁风险
AITER 版本与模型框架对齐	`pip show aiter` + 对照 changelog	内核接口签名不匹配，运行时 crash
FP8 权重 scale 格式确认	检查 safetensors 中 `weight_scale_inv` 的 shape	per-row vs per-block 误用，输出精度偏移
Triton kernel NUM_STAGES/NUM_WARPS 调优	`rocprof --stats` 看 SM occupancy	占用率 < 70%，吞吐比 H100 低 20-30%
GCD 队列深度与并发 kernel 数量	`rocm-smi --showtopo` + 实测并发数	队列溢出导致静默死锁
MoE topk 与专家 GEMM 融合状态	`rocprof` 统计 kernel launch 数	逐专家独立 GEMM，MoE 延迟翻倍

最后说一句实话：MI300X 的 192 GB 内存确实让 DeepSeek-V4-Flash 这种大模型不用做复杂的权重分片就能单卡加载，这是 H100 80 GB 做不到的。但在 kernel 融合度和软件生态成熟度上，AMD 还在追赶。如果你追求的是"能跑起来、内存够用"，MI300X 已经可以交付；如果你追求的是"每 token 延迟和 H100 持平"，目前还需要在 Triton 参数和 AITER 适配上投入不少调优工时。选择哪个平台，取决于你的瓶颈在内存还是在延迟。