标签

CNCF

Lima v2.2 加入 Windows 虚拟机与 TPM 2.0 模拟：一套命令管理四种来宾系统

2026-07-29 来源: cncf.io 10

Lima v2.1 已经扩展到 macOS 和 FreeBSD 来宾系统，v2.2 又补上了 Windows。现在，Linux、macOS、FreeBSD 和 Windows 虚拟机可以进入同一套工作流。与此同时，TPM 2.0 模拟为需要可信平台模块的 Windows 安装、测试和自动化场景补上了关键能力。过去，开发团队经常为不同来宾系统维护不同...

# CNCF # 云原生

阅读全文

CoHDI 进入 CNCF Sandbox：让 Kubernetes 面向可组合解耦基础设施演进

2026-07-29 来源: cncf.io 20

CoHDI 已正式成为 CNCF Sandbox 项目。这个里程碑不仅意味着项目进入云原生社区的公开治理与孵化轨道，也指向一个更具体的问题：当计算、内存、加速器和网络资源不再固定封装在同一台服务器里，Kubernetes 应该如何发现、组合并调度这些资源？传统 Kubernetes 调度以节点为中心。Pod 声明 CPU、内存等需求，调度器寻找一台满...

# CNCF # Kubernetes # 云原生

阅读全文

日本 Kubernetes 培训量激增 250%：云原生认证如何重塑 AI 人才供给

2026-07-29 来源: cncf.io 30

2025 年 6 月，首届 KubeCon + CloudNativeCon Japan 在东京举行。此后，日本的云原生技能学习明显升温，相关培训与考试活动出现约 250% 的增长。这不只是 Kubernetes 社区规模扩大的信号，也反映出 AI 产业正在重新定义基础设施人才：企业需要的不再只是会调用模型 API 的开发者，还需要能够部署、扩缩容、监...

# AI # CNCF # Kubernetes

阅读全文

Kubeflow 冲刺 CNCF 毕业：云原生 AI 平台走向生产成熟

2026-07-29 来源: cncf.io 13

KubeCon + CloudNativeCon Japan 2026 释放出的 Kubeflow 动向，重点不只是增加功能，而是推动项目向 CNCF Graduation 迈进。这意味着社区正在把注意力放到更严格的生产要求上：稳定治理、可维护组件、可观测运行方式，以及能够被团队长期采用的机器学习平台工程实践。 CNCF Graduation 不是简单...

# AI # CNCF # 云原生

阅读全文

跨集群联邦：让 Kubernetes 区域故障真正做到无停机切换

2026-07-27 来源: cncf.io 25

多区域部署最容易制造一种危险的安全感：服务已经在两个 Kubernetes 集群中运行，但其中一个集群消失时，用户流量仍然固执地发往故障区域。副本存在，不等于故障转移已经成立。要让备用集群真正接管请求，必须把工作负载、流量入口、健康判断和数据状态一起纳入设计。跨集群联邦的核心目标，是把多个独立集群视为同一个服务的运行位置，同时保留故障隔离边界。每个集...

# CNCF # Go # Kubernetes

阅读全文

从 Kubernetes 工程师到 kgateway 贡献者：一次 LFX 导师项目的工程化路径

2026-07-24 来源: cncf.io 35

开源经历可以持续多年，但进入一个新的云原生项目仍然需要重新学习：代码如何组织、控制器如何协调资源、测试如何运行，以及维护者如何判断一次修改是否可以合并。围绕 kgateway 展开的 LFX Mentorship 经历，值得关注的不只是“完成了多少代码”，而是如何把 Kubernetes 经验转化为稳定、可审查的上游贡献。云原生项目通常横跨 Kube...

# CNCF # Kubernetes # 云原生

阅读全文

OpenTelemetry 已从 CNCF 毕业，团队接下来该做什么？

2026-07-24 来源: cncf.io 22

OpenTelemetry（OTel）正式成为 CNCF 毕业项目，与 Kubernetes、Prometheus 等成熟开源项目处于同一项目阶段。对开发团队而言，这不只是一个社区里程碑，也意味着一个更实际的问题：既然遥测标准已经趋于成熟，我们是否应该把分散的日志、指标和追踪接入方式收拢到 OpenTelemetry？答案通常不是“立刻替换全部监控系...

# CNCF # Kubernetes # 云原生

阅读全文

CNCF 日本社区成立 AI Infra SIG：把 AI Agent 基础设施问题带进云原生协作

2026-07-24 来源: cncf.io 29

AI 应用正在从单轮生成式调用走向能够规划、调用工具并持续执行任务的 Agent。工作负载随之发生变化：推理请求持续时间更长，GPU 等加速资源更紧张，模型服务需要弹性伸缩，任务还可能跨越多个服务和集群。CNCF 日本社区成立 AI Infra SIG，并通过首次 meetup 和讲者招募启动交流，正是为了把这些问题放到 Kubernetes 与 Cl...

# AI # CNCF # Kubernetes

阅读全文

十周贡献者计划如何帮助 OpenTelemetry 从依赖管理走向长期治理

2026-07-23 来源: cncf.io 36

OpenTelemetry 已经成为云原生可观测性体系中的关键公共依赖，但“广泛使用”并不自动等于“可持续维护”。2026 年 4 月，CNCF、OpenTelemetry 项目与 Bloomberg 开源项目办公室共同推动了一项为期十周的贡献者 cohort。它延续了一个重要转变：企业不能只管理自己引入了哪些开源依赖，还需要思考如何参与这些依赖的长期...

# AI # CNCF # 云原生

阅读全文

Kubeflow 任务正常，GPU 却闲置 60%：从 NCCL 到 Cilium 的排障路径

2026-07-23 来源: cncf.io 33

分布式训练最难排查的故障，往往不是 Pod 崩溃，而是所有组件看起来都正常：Kubeflow 任务处于 Running，Pod 没有重启，也没有 OOMKill，但 GPU 大部分时间没有计算。来源摘要描述的正是这种反直觉现象：训练任务健康运行，GPU 却有约 60% 的时间处于空闲状态。这类问题不能只看 Kubernetes 控制面。分布式训练依赖...

# AI # CNCF # Kubernetes

阅读全文