标签

PyTorch

为 2026 PyTorch 大会设计一枚真正能被制造出来的 Flare Pin

2026-07-29 来源: pytorch.org 22

PyTorch Foundation 正在征集 2026 年 PyTorch Conference North America 的 flare pin 设计。获胜者将获得一张该大会的免费门票。对开发者和技术设计师来说，这不只是一次画图比赛：一枚合格的徽章既要传达 PyTorch 社区的气质，也要经得起缩小、制版和实体生产。会议徽章的展示面积有限。屏幕...

# AI # PyTorch # 机器学习

阅读全文

在 AWS 上构建可解释的银行下一最佳产品推荐系统

2026-07-24 来源: aws.amazon.com 34

银行的下一最佳产品（Next-Best-Product，NBP）推荐，不能只追求点击率或转化率。模型需要同时处理客户画像、账户行为、产品属性和交互上下文，并且能对每一条推荐说明理由。基于 Amazon SageMaker AI、PyTorch、多塔神经网络和学习式注意力机制，可以把准确性与监管所需的可解释性放进同一条推荐链路。传统推荐模型常把所有特征...

# AI # AWS # PyTorch

阅读全文

Helion 接入 TPU：用同一套高层 Kernel DSL 走向 Pallas

2026-07-24 来源: pytorch.org 30

ML Kernel 的性能工作，常常被两件事绑住：一是要理解底层硬件的执行模型，二是同一算法换到另一种加速器后，往往又要重写一遍实现。Helion 是面向 PyTorch 的高层 DSL，目标是让开发者以更高层的方式编写性能可移植的 Kernel。现在，Helion 与 Google 合作构建了 TPU 后端，可将 Helion Kernel 编译到 ...

# AI # Go # PyTorch

阅读全文

用协作式时间切片填平 RL 流水线的 GPU 空窗

2026-07-24 来源: cloud.google.com 33

大模型强化学习后训练并不总是缺 GPU，很多时候真正的问题是 GPU 已经分配，却在等待下一阶段。同步 RL 在 rollout 采样与梯度训练之间严格交替；异步 RL 虽然允许两者重叠，训练器仍可能因新鲜轨迹不足而停顿。llm-d 引入的协作式时间切片把这些阶段变成可调度单元，让多个独立 RL 作业共享同一组物理加速器。初步基准显示，这种平台级复用...

# AI # GCP # Go

阅读全文

从单一项目到 AI 全生命周期：PyTorch Foundation 的多项目转型

2026-07-22 来源: pytorch.org 39

2025 年 4 月，PyTorch Foundation 从围绕单一项目运作的基金会演进为多项目基金会。这个变化的重点不只是扩大项目数量，而是为 AI 生命周期中不同领域的开源项目建立更深的协作基础，让创新能够跨越训练、部署、工具链和运维边界。现代 AI 系统很少只依赖一个训练框架。一个模型进入生产环境，通常会经过数据处理、训练与评估、模型转换、推...

# AI # PyTorch # 机器学习

阅读全文

PyTorch Conference North America 日程公布：从训练推理到负责任 AI

2026-07-22 来源: pytorch.org 31

PyTorch Conference North America 的日程已经上线。10 月 20 日至 21 日，开发者、研究人员和 AI 实践者将在圣何塞聚集，围绕训练与推理、编译器创新、负责任 AI、实际应用以及 PyTorch 生态展开交流。对于正在把模型从实验环境推向生产系统的团队来说，这份日程的价值不只是了解会议安排，更在于观察 PyTor...

# AI # PyTorch # 机器学习

阅读全文

PyTorch-Triton 3.7 插件扩展：让 TLX、自定义方言与编译 Pass 动态接入

2026-07-15 来源: pytorch.org 26

PyTorch-Triton 3.7 引入了 Triton Plugin Extensions。这套机制的关键变化，不只是“可以安装插件”，而是上游 Triton 能够动态加载自定义编译 Pass、方言及其操作，以及 DSL 扩展。对于维护专用算子、硬件后端或内部编译优化的团队，这意味着扩展能力不必再长期依赖一套难以同步的 Triton 分支。 Tri...

# AI # PyTorch # 机器学习

阅读全文

把 Kubeflow 故障现场带回 Kubernetes：用 Headlamp 插件直查 CRD 与 Pod

2026-07-14 来源: kubernetes.io 28

Kubernetes 已经承载了越来越多的 AI/ML 工作负载：Notebook、分布式训练、超参数搜索、流水线和 Spark 作业最终都会落到 Pod、存储卷、调度器与自定义资源上。Kubeflow 用 CRD 描述这些能力，但面向数据科学家的专用控制台往往隐藏了底层 Kubernetes 状态。Headlamp Kubeflow 插件补上了这层视...

# AI # AWS # Go

阅读全文

把归一化塞进 GEMM 与 Attention：让 LayerNorm 和 RMSNorm 接近“免费”

2026-07-10 来源: pytorch.org 38

LayerNorm 和 RMSNorm 的浮点运算量并不算大，却经常成为模型推理与训练链路中的明显开销。问题通常不在算术，而在数据搬运：一个独立归一化算子需要读取输入、计算统计量、写回结果，后续 GEMM 或 Attention 又要重新读取这些结果。本文讨论的优化方向，是把常见归一化操作融合进 GEMM 和 Attention 内核，让中间张量尽量...

# AI # PyTorch # 机器学习

阅读全文

用 PyTorch Profiler 拆解注意力计算：从算子耗时到显存峰值

2026-07-10 来源: huggingface.co 36

注意力层经常同时承受计算、显存和数据搬运压力。只看一次前向传播的总耗时，很难判断瓶颈究竟来自矩阵乘法、Softmax、中间张量，还是内核调度。更有效的办法是用 PyTorch Profiler 把注意力计算拆到算子级，并结合输入形状、显存分配和执行时间做判断。本文基于“分析 PyTorch 中的注意力计算”这一主题给出一套可直接实践的方法。由于来源摘...

# AI # Hugging Face # LLM

阅读全文