LinkedIn 用 PyTorch 重写分布式线性规划求解器：从 CPU 到 GPU 的极限优化之路

预计阅读时间：12 分钟

LinkedIn 每天要处理数以亿计的分配决策——广告投放、通知推送、内容推荐，背后都指向同一类数学问题：线性规划（LP）。当变量规模从几千膨胀到几十亿，传统求解器要么跑不完，要么跑不起。LinkedIn 的做法很硬核：把整个分布式 LP 求解器 DuaLip 用 PyTorch 重写，让 GPU 来扛最重的计算。这不是"换个框架跑跑看"的实验，而是生产级的架构替换。

传统 LP 求解器在 Web 规模下的崩溃点

工业级 LP 求解器（CPLEX、Gurobi 等）在中等规模下表现优秀，但面对 Web 场景会撞上几堵墙：

内存爆炸：几十亿变量的系数矩阵，即使稀疏存储也远超单机内存。
求解时间不可接受：单纯形法在大规模问题上迭代次数不可预测；内点法虽然迭代次数稳定，但每步的矩阵分解代价极高。
分布式支持薄弱：商业求解器的分布式能力有限，很难利用多机多卡并行。

LinkedIn 的 DuaLip 原版已经做了分布式拆分，把大问题切成子问题分到多台机器上用 CPU 求解。但 CPU 集群的扩展性仍然不够——机器数量上去后，通信开销和调度延迟成了瓶颈。

PyTorch 重写：不是换工具，是换算法范式

用 PyTorch 重写 LP 求解器，核心不是"PyTorch 比 CPLEX 快"，而是换了一条算法路径：

传统求解器走精确路线——分解、消元、回代，步步保证数值精度。PyTorch 版走迭代路线——把 LP 问题映射到可微的计算图上，用梯度下降（或更高级的一阶方法）逼近最优解。这条路径天然适配 GPU 的大规模并行矩阵运算。

具体来说，DuaLip 的 PyTorch 版采用了类似原始-对偶梯度法的思路：

把 LP 的约束通过拉格朗日松弛融入目标函数。
对原始变量和对偶变量交替做梯度更新。
利用 PyTorch 的 autograd 自动处理梯度计算。
大规模矩阵运算交给 GPU tensor 完成。

这意味着每一步迭代都是一次 forward + backward，和训练神经网络的结构高度同构——PyTorch 的所有基础设施（分布式训练、混合精度、梯度累积）可以直接复用。

实战：用 PyTorch 搭一个最小 LP 求解器

下面是一个可以直接运行的示例，展示如何用 PyTorch 的原始-对偶梯度法求解一个中小规模 LP 问题。这不是 DuaLip 的完整实现，但包含了核心思路——你可以在此基础上扩展到更大规模和分布式场景。

"""
PyTorch 原始-对偶梯度法求解线性规划示例

问题形式:
    min   c^T x
    s.t.  A x <= b,  x >= 0

通过拉格朗日松弛转化为原始-对偶迭代:
    L(x, lambda) = c^T x + lambda^T (A x - b)
    x 更新:      沿 L 对 x 的梯度方向下降（投影到 x >= 0）
    lambda 更新:  沿 L 对 lambda 的梯度方向上升（投影到 lambda >= 0）
"""

import torch

# ---- 1. 定义问题参数 ----
# 你可以修改这些矩阵来测试不同问题
n_vars = 5000      # 变量数
n_constraints = 1000  # 约束数

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Running on: {device}")

# 随机生成一个可行的问题（确保 b > 0 使得 x=0 是可行点）
torch.manual_seed(42)
A = torch.randn(n_constraints, n_vars, device=device) * 0.01
b = torch.abs(torch.randn(n_constraints, device=device)) + 1.0
c = torch.randn(n_vars, device=device) * 0.1

# ---- 2. 初始化原始和对偶变量 ----
x = torch.zeros(n_vars, device=device, requires_grad=True)
lam = torch.zeros(n_constraints, device=device, requires_grad=True)

# ---- 3. 迭代求解 ----
n_iters = 2000
lr_x = 0.05       # 原始步长
lr_lam = 0.05     # 对偶步长

for i in range(n_iters):
    # 计算拉格朗日函数
    violation = A @ x - b          # 约束违反量
    lagrangian = c @ x + lam @ violation

    # 自动求导
    lagrangian.backward()

    # 原始变量更新：梯度下降 + 投影到 x >= 0
    with torch.no_grad():
        x_grad = x.grad
        x -= lr_x * x_grad
        x.clamp(min=0)             # 投影：x >= 0

    # 对偶变量更新：梯度上升 + 投影到 lambda >= 0
    with torch.no_grad():
        lam_grad = lam.grad
        lam += lr_lam * lam_grad
        lam.clamp(min=0)           # 投影：lambda >= 0（不等式约束的对偶）

    x.grad.zero_()
    lam.grad.zero_()

    # 每 200 步打印状态
    if i % 200 == 0 or i == n_iters - 1:
        obj_val = (c @ x).item()
        max_viol = violation.clamp(min=0).max().item()
        print(f"Iter {i:4d} | obj={obj_val:.4f} | max_violation={max_viol:.6f}")

print(f"\nFinal objective: {(c @ x).item():.4f}")
print(f"Final max constraint violation: {(A @ x - b).clamp(min=0).max().item():.6f}")

运行前确保安装了 PyTorch：

pip install torch   # GPU 版需按官网指引安装对应 CUDA 版本

几个关键调整点：

步长（学习率）：这是原始-对偶方法最敏感的参数。实际工程中常用衰减策略或自适应步长（如 Adam），上面示例用固定步长是为了清晰。
投影操作：clamp(min=0) 是对非负约束的硬投影。DuaLip 在大规模场景下会做更精细的投影，比如针对 box 约束或网络流约束的专用投影算子。
规模扩展：把 n_vars 调到 10 万、100 万，在 GPU 上仍然可以跑。真正到亿级时，需要引入分布式——这正是 PyTorch DistributedDataParallel 的用武之地。

从单卡到分布式：DuaLip 的工程放大器

单卡能扛百万级变量，但 LinkedIn 的真实问题远不止于此。DuaLip 的分布式策略可以概括为三层：

第一层：问题拆分。 把大规模 LP 按业务结构拆成子问题。比如广告分配中，不同广告主的约束天然分块，拆开后子问题之间只有少量耦合变量。

第二层：PyTorch 分布式训练框架复用。 子问题的梯度计算分配到不同 GPU 上，用 DistributedDataParallel 或 RPCFramework 做跨机器的参数同步。这比自研一套分布式通信协议划算得多。

第三层：混合精度与内存优化。 LP 的系数矩阵通常是稀疏的。PyTorch 版利用稀疏 tensor 表示加上 AMP（自动混合精度），在精度损失可控的前提下把内存占用和计算时间进一步压缩。

一个简化的分布式启动示意：

# 单机多卡
torchrun --nproc_per_node=4 dualip_solver.py \
    --problem-dir /data/lp_chunks \
    --iters 5000 \
    --lr-x 0.01 --lr-lam 0.01

# 多机多卡（2 台机器，每台 4 卡）
torchrun --nnodes=2 --nproc_per_node=4 \
    --master_addr=10.0.0.1 --master_port=29500 \
    dualip_solver.py \
    --problem-dir /data/lp_chunks \
    --iters 5000 \
    --lr-x 0.01 --lr-lam 0.01

精度、速度、工程复杂度的三角权衡

把 LP 求解器从精确算法换成迭代近似方法，不是没有代价的：

精度损失可控但不可消除。 一阶梯度法收敛到高精度解需要大量迭代。DuaLip 的策略是：业务场景不需要数学意义上的最优解，"足够好"就行。广告分配中，目标值偏差 0.1% 对业务指标几乎没有影响。但如果你的场景要求严格最优（如金融风控的合规约束），这条路径需要谨慎评估。

收敛性依赖调参。 步长、衰减策略、投影方式都会影响收敛速度和稳定性。LinkedIn 的经验是：针对特定问题结构（如网络流、匹配问题）定制投影算子和步长策略，比通用方案效果好得多。

工程复杂度转移。 传统求解器是黑盒——定义问题、调用 API、拿结果。PyTorch 版要求团队理解优化算法细节，自己维护迭代逻辑。好处是灵活性极高（可以嵌入业务规则、做约束松弛、混合其他模型），坏处是调试门槛上升。

落地前的检查清单

如果你也在面对大规模 LP 问题，考虑走 PyTorch 路线前，逐项确认：

✅ 问题规模是否真的超出了传统求解器的能力？ 几万变量用 Gurobi 可能 10 分钟搞定，没必要换路径。
✅ 业务是否容忍近似解？ 如果约束违反量必须严格为零，一阶方法需要额外处理（如惩罚项逐步放大），复杂度会显著上升。
✅ 问题结构是否可拆分？ 完全稠密耦合的大 LP，分布式拆分收益有限；有天然分块结构的问题才适合。
✅ 团队是否有优化算法背景？ 调参、诊断不收敛、设计投影算子，都需要比"调 sklearn 超参"更深的数学功底。
✅ GPU 资源是否充足？ CPU 群上跑 PyTorch 版反而可能比传统求解器慢——这个架构的加速点在 GPU tensor 运算。

LinkedIn 的这次重写证明了一件事：当问题规模大到传统工具的边界之外，把优化问题重新映射到深度学习的基础设施上，不只是"能用"，而是能跑出传统路径达不到的扩展性。代价是你必须放弃黑盒的安逸，自己掌舵算法的每一步迭代。