标签

Kubernetes

CoHDI 进入 CNCF Sandbox：让 Kubernetes 面向可组合解耦基础设施演进

2026-07-29 来源: cncf.io 20

CoHDI 已正式成为 CNCF Sandbox 项目。这个里程碑不仅意味着项目进入云原生社区的公开治理与孵化轨道，也指向一个更具体的问题：当计算、内存、加速器和网络资源不再固定封装在同一台服务器里，Kubernetes 应该如何发现、组合并调度这些资源？传统 Kubernetes 调度以节点为中心。Pod 声明 CPU、内存等需求，调度器寻找一台满...

# CNCF # Kubernetes # 云原生

阅读全文

日本 Kubernetes 培训量激增 250%：云原生认证如何重塑 AI 人才供给

2026-07-29 来源: cncf.io 30

2025 年 6 月，首届 KubeCon + CloudNativeCon Japan 在东京举行。此后，日本的云原生技能学习明显升温，相关培训与考试活动出现约 250% 的增长。这不只是 Kubernetes 社区规模扩大的信号，也反映出 AI 产业正在重新定义基础设施人才：企业需要的不再只是会调用模型 API 的开发者，还需要能够部署、扩缩容、监...

# AI # CNCF # Kubernetes

阅读全文

PostgreSQL MVCC 的代价：真正该比较的是谁为历史版本买单

2026-07-27 来源: postgr.es 18

PostgreSQL 的 MVCC 经常因表膨胀、写放大、VACUUM 调优和 32 位事务 ID 被批评。这些问题都真实存在，但只说“PostgreSQL 的 MVCC 很差”还少问了一步：如果读者不能阻塞写者，那么旧版本必须保存在某个地方，清理成本也必须由某个组件承担。不同数据库没有消灭这笔成本，只是决定由写入、历史读取、缓存、临时空间还是后台整理...

# AI # Azure # Go

阅读全文

跨集群联邦：让 Kubernetes 区域故障真正做到无停机切换

2026-07-27 来源: cncf.io 25

多区域部署最容易制造一种危险的安全感：服务已经在两个 Kubernetes 集群中运行，但其中一个集群消失时，用户流量仍然固执地发往故障区域。副本存在，不等于故障转移已经成立。要让备用集群真正接管请求，必须把工作负载、流量入口、健康判断和数据状态一起纳入设计。跨集群联邦的核心目标，是把多个独立集群视为同一个服务的运行位置，同时保留故障隔离边界。每个集...

# CNCF # Go # Kubernetes

阅读全文

Amazon EKS 支持升级后 7 天内回滚 Kubernetes 版本

2026-07-26 来源: infoq.com 35

Amazon EKS 新增了 Kubernetes 版本回滚能力：集群控制平面升级后，如果出现兼容性或稳定性问题，团队可以在 7 天内退回升级前的 Kubernetes 版本。这项能力降低了原地升级的恢复成本，但它不是跳过测试、备份和工作负载验证的理由。过去，托管 Kubernetes 的控制平面版本升级通常被视为单向操作。应用、准入控制器或平台组件...

# InfoQ # Kubernetes # 云原生

阅读全文

从 Kubernetes 工程师到 kgateway 贡献者：一次 LFX 导师项目的工程化路径

2026-07-24 来源: cncf.io 35

开源经历可以持续多年，但进入一个新的云原生项目仍然需要重新学习：代码如何组织、控制器如何协调资源、测试如何运行，以及维护者如何判断一次修改是否可以合并。围绕 kgateway 展开的 LFX Mentorship 经历，值得关注的不只是“完成了多少代码”，而是如何把 Kubernetes 经验转化为稳定、可审查的上游贡献。云原生项目通常横跨 Kube...

# CNCF # Kubernetes # 云原生

阅读全文

OpenTelemetry 已从 CNCF 毕业，团队接下来该做什么？

2026-07-24 来源: cncf.io 22

OpenTelemetry（OTel）正式成为 CNCF 毕业项目，与 Kubernetes、Prometheus 等成熟开源项目处于同一项目阶段。对开发团队而言，这不只是一个社区里程碑，也意味着一个更实际的问题：既然遥测标准已经趋于成熟，我们是否应该把分散的日志、指标和追踪接入方式收拢到 OpenTelemetry？答案通常不是“立刻替换全部监控系...

# CNCF # Kubernetes # 云原生

阅读全文

CNCF 日本社区成立 AI Infra SIG：把 AI Agent 基础设施问题带进云原生协作

2026-07-24 来源: cncf.io 29

AI 应用正在从单轮生成式调用走向能够规划、调用工具并持续执行任务的 Agent。工作负载随之发生变化：推理请求持续时间更长，GPU 等加速资源更紧张，模型服务需要弹性伸缩，任务还可能跨越多个服务和集群。CNCF 日本社区成立 AI Infra SIG，并通过首次 meetup 和讲者招募启动交流，正是为了把这些问题放到 Kubernetes 与 Cl...

# AI # CNCF # Kubernetes

阅读全文

用协作式时间切片填平 RL 流水线的 GPU 空窗

2026-07-24 来源: cloud.google.com 33

大模型强化学习后训练并不总是缺 GPU，很多时候真正的问题是 GPU 已经分配，却在等待下一阶段。同步 RL 在 rollout 采样与梯度训练之间严格交替；异步 RL 虽然允许两者重叠，训练器仍可能因新鲜轨迹不足而停顿。llm-d 引入的协作式时间切片把这些阶段变成可调度单元，让多个独立 RL 作业共享同一组物理加速器。初步基准显示，这种平台级复用...

# AI # GCP # Go

阅读全文

Kubeflow 任务正常，GPU 却闲置 60%：从 NCCL 到 Cilium 的排障路径

2026-07-23 来源: cncf.io 33

分布式训练最难排查的故障，往往不是 Pod 崩溃，而是所有组件看起来都正常：Kubeflow 任务处于 Running，Pod 没有重启，也没有 OOMKill，但 GPU 大部分时间没有计算。来源摘要描述的正是这种反直觉现象：训练任务健康运行，GPU 却有约 60% 的时间处于空闲状态。这类问题不能只看 Kubernetes 控制面。分布式训练依赖...

# AI # CNCF # Kubernetes

阅读全文