来源:pytorch.org
12
给模型加上一行 ,推理速度有时能飙升数倍甚至十倍。这背后不是魔法,而是 GPU 执行模型的一个根本性优化——内核融合(Kernel Fusion)。理解它,你才能判断什么时候该用 compile、什么时候它帮不上忙,以及如何写出更容易被融合的代码。 PyTorch 的 eager 模式下,每遇到一个算子,框架就向 GPU 发射一个 kernel——一段...
来源:pytorch.org
24
大模型推理的瓶颈,很多时候不在算力,而在搬运。TokenSpeed 在 GPU 上跑 Qwen3.5-397B-A17B(397B 总参数、17B 活跃参数的 MoE 架构)冲到 580 tokens/s,核心思路就一条:系统性地消灭每一处不必要的内存拷贝。对做 Agentic 工作流的团队来说,这意味着长上下文、多轮工具调用的场景终于有了不卡顿的 G...
来源:pytorch.org
12
PyTorch 基金会今天宣布阿里云以铂金会员身份加入。铂金意味着每年至少 25 万美元的赞助投入,以及在技术指导委员会中拥有席位。这不是一张"赞助证书",而是阿里云要实质性地参与 PyTorch 的路线图制定和基础设施建设。对日常用 PyTorch 训练模型的开发者来说,这件事的影响会比想象中更具体。 加入基金会之前,阿里云并非旁观者。几个已经落地的...
来源:pytorch.org
24
大模型推理和训练的算力瓶颈,很大一部分卡在 self-attention 的 O(n²) 复杂度上。块对角稀疏(block-diagonal sparse)注意力是一种实用的压缩策略——只在固定大小的对角块内计算注意力,其余位置直接跳过。问题在于:现有内核多为通用稀疏注意力设计,没有针对固定块模式做编译期优化,更没有利用新一代 GPU 的硬件特性。 M...
来源:pytorch.org
34
一年前,PyTorch 基金会正式推出 Ambassador Program——这不是又一个挂名的荣誉头衔,而是对社区中那些持续输出内容、组织活动、帮助他人解决问题的独立技术声音的系统性支持。如果你曾在本地 Meetup 上讲过 PyTorch、写过教程、在论坛里反复回答新手问题,这个计划就是为你准备的。 PyTorch 基金会的大使计划核心目标很明确...
来源:pytorch.org
20
PyTorch Docathon 2026 刚落下帷幕,社区交出了 150+ 已合并 PR 的成绩单。一场围绕文档的冲刺活动,能吸引这么多人持续投入,本身就说明一件事——PyTorch 的文档痛点真实存在,而修复它的门槛比很多人想象的要低。 PyTorch 的 API 数量庞大,从 到 ,从 eager mode 到 TorchScript、torch...
来源:pytorch.org
21
在 ARM64 服务器上部署 GPU 推理,过去最让人头疼的不是模型本身,而是装 PyTorch。官方 PyPI 上长期只有 CPU 版的 aarch64 wheel,想用 CUDA 就得去找第三方索引、手动拼 URL、甚至自己编译——一条 跑完,拿到的是个没 GPU 支持的空壳。PyTorch 2.11 把这件事彻底改了:CUDA-enabled 的...
来源:pytorch.org
34
过去在 Mac 上做推理,要么老老实实跑 CPU,要么绕道转成 CoreML 模型——中间的格式转换和精度损失让人头疼。Apple 的 MLX 框架已经证明 M 系列芯片的 GPU 能跑出相当不错的推理速度,但 PyTorch 生态一直缺少一条直通路径。ExecuTorch MLX Delegate 的出现,把这条路铺通了:PyTorch 模型导出后,...
来源:pytorch.org
17
PyTorch 2.12 发布了。如果你日常用 做矩阵分解,这一版值得立刻升级——批量化的 (对称矩阵特征值分解)在 CUDA 上最高提速 100 倍。这不是微调,是质变。下面拆开看具体发生了什么,以及怎么在你的项目里用上它。 对单个对称矩阵做特征值分解,是量子化学、信号处理、PCA 等场景的核心算子。过去在 CUDA 上,如果你传入一批(batche...