标签

PyTorch

PyTorch Compile 为什么能快这么多:内核融合的秘密

来源:pytorch.org 12
给模型加上一行 ,推理速度有时能飙升数倍甚至十倍。这背后不是魔法,而是 GPU 执行模型的一个根本性优化——内核融合(Kernel Fusion)。理解它,你才能判断什么时候该用 compile、什么时候它帮不上忙,以及如何写出更容易被融合的代码。 PyTorch 的 eager 模式下,每遇到一个算子,框架就向 GPU 发射一个 kernel——一段...

TokenSpeed 把 Qwen3.5-397B-A17B 推到 580 TPS:消灭内存拷贝的推理加速实战

来源:pytorch.org 24
大模型推理的瓶颈,很多时候不在算力,而在搬运。TokenSpeed 在 GPU 上跑 Qwen3.5-397B-A17B(397B 总参数、17B 活跃参数的 MoE 架构)冲到 580 tokens/s,核心思路就一条:系统性地消灭每一处不必要的内存拷贝。对做 Agentic 工作流的团队来说,这意味着长上下文、多轮工具调用的场景终于有了不卡顿的 G...

阿里云成为 PyTorch 基金会铂金会员:对开发者意味着什么

来源:pytorch.org 12
PyTorch 基金会今天宣布阿里云以铂金会员身份加入。铂金意味着每年至少 25 万美元的赞助投入,以及在技术指导委员会中拥有席位。这不是一张"赞助证书",而是阿里云要实质性地参与 PyTorch 的路线图制定和基础设施建设。对日常用 PyTorch 训练模型的开发者来说,这件事的影响会比想象中更具体。 加入基金会之前,阿里云并非旁观者。几个已经落地的...

TLX Block Attention:为 Blackwell 架构量身定制的块稀疏注意力内核

来源:pytorch.org 24
大模型推理和训练的算力瓶颈,很大一部分卡在 self-attention 的 O(n²) 复杂度上。块对角稀疏(block-diagonal sparse)注意力是一种实用的压缩策略——只在固定大小的对角块内计算注意力,其余位置直接跳过。问题在于:现有内核多为通用稀疏注意力设计,没有针对固定块模式做编译期优化,更没有利用新一代 GPU 的硬件特性。 M...

PyTorch 基金会大使计划:从社区贡献者到全球技术布道者

来源:pytorch.org 34
一年前,PyTorch 基金会正式推出 Ambassador Program——这不是又一个挂名的荣誉头衔,而是对社区中那些持续输出内容、组织活动、帮助他人解决问题的独立技术声音的系统性支持。如果你曾在本地 Meetup 上讲过 PyTorch、写过教程、在论坛里反复回答新手问题,这个计划就是为你准备的。 PyTorch 基金会的大使计划核心目标很明确...

PyTorch Docathon 2026:150+ PR 落地,文档贡献其实没那么难

来源:pytorch.org 20
PyTorch Docathon 2026 刚落下帷幕,社区交出了 150+ 已合并 PR 的成绩单。一场围绕文档的冲刺活动,能吸引这么多人持续投入,本身就说明一件事——PyTorch 的文档痛点真实存在,而修复它的门槛比很多人想象的要低。 PyTorch 的 API 数量庞大,从 到 ,从 eager mode 到 TorchScript、torch...

在 Apple Silicon GPU 上跑 PyTorch 模型:ExecuTorch MLX Delegate 实战

来源:pytorch.org 34
过去在 Mac 上做推理,要么老老实实跑 CPU,要么绕道转成 CoreML 模型——中间的格式转换和精度损失让人头疼。Apple 的 MLX 框架已经证明 M 系列芯片的 GPU 能跑出相当不错的推理速度,但 PyTorch 生态一直缺少一条直通路径。ExecuTorch MLX Delegate 的出现,把这条路铺通了:PyTorch 模型导出后,...

PyTorch 2.12:批量 eigh 在 CUDA 上提速百倍,线性代数运算迎来质变

来源:pytorch.org 17
PyTorch 2.12 发布了。如果你日常用 做矩阵分解,这一版值得立刻升级——批量化的 (对称矩阵特征值分解)在 CUDA 上最高提速 100 倍。这不是微调,是质变。下面拆开看具体发生了什么,以及怎么在你的项目里用上它。 对单个对称矩阵做特征值分解,是量子化学、信号处理、PCA 等场景的核心算子。过去在 CUDA 上,如果你传入一批(batche...