标签

Kubernetes

用 AI 辅助迁移,30 分钟把 ingress-nginx 配置搬到 Higress

来源:infoq.com 18
Kubernetes 网关基础设施的迁移历来是体力活——逐条比对 Ingress 资源、手动转换注解、反复测试路由是否生效。CNCF 最近分享了一个案例:工程师借助 AI 辅助迁移工具,将 60 条 ingress-nginx 资源迁移到 Higress,全程仅用了大约 30 分钟。这不是噱头,而是 AI 在云原生基础设施现代化中的一次真实落地。 in...

用 Kubernetes 与 GitOps 搭建云原生内部开发者平台:从集群到软件供应链的安全闭环

来源:cncf.io 34
现代软件交付的瓶颈早已不在应用代码本身——它卡在跑代码的平台上。团队写好了服务,却要花大量时间处理集群配置、权限审批、镜像签名、环境漂移。内部开发者平台(Internal Developer Platform,IDP)的目标就是把这些摩擦抹掉:开发者声明"我要一个生产环境的前端服务",平台自动完成从集群分配到镜像构建到安全校验到部署的全链路。 下面拆解...

Kubernetes 的集成税:当 Prometheus 搭不上 Cilium 的指标列车

来源:cncf.io 21
凌晨两点,Grafana 面板一片空白——不是服务挂了,不是网络断了,Hubble 的 DNS 可视化和 TCP 流量追踪一切正常。唯独 Cilium 的网络指标在 Prometheus 里消失了。这不是 bug,是集成出了问题。 这类"明明组件都在跑,数据就是串不起来"的场景,在 Kubernetes 生产环境中反复上演。每引入一个新组件,你以为获得...

用 KEDA 外部扩展器实现 Kubernetes GPU 自动伸缩

来源:cncf.io 27
跑 GPU 工作负载的开发者迟早会撞上同一堵墙:Kubernetes 默认的 HPA 只看 CPU 和内存,而你的瓶颈在 GPU。vLLM 推理服务排队不是因为 CPU 满了,而是显存吃紧、SM 占用率拉满;Triton 模型服务在 GPU 利用率 90% 时还在被 HPA 判定为"负载正常"。训练任务更离谱——一个 job 占满整张卡,HPA 对此毫...

Kubernetes 三个「不修」的 CVE 记录即将更正:你的扫描器可能突然报警

来源:kubernetes.io 27
Kubernetes 安全响应委员会(SRC)发现,几个已公开多年的 CVE 记录存在一个关键错误——它们标注了"已修复版本",但实际漏洞从未被修补。2026 年 6 月 1 日,这些记录将被更正为"所有版本受影响"。这意味着你的漏洞扫描器可能在原本"安全"的集群上突然报出新的告警。本文拆解三个未修复 CVE 的技术机理,并给出可立即执行的缓解配置。 ...

Koordinator v1.8:作业排队、资源预占与调度协同三箭齐发

来源:oschina.net 23
Kubernetes 集群跑久了,总会撞上几堵墙:高优先级作业排队没章法、低优先级 Pod 占着资源不放、调度器和重调度器各自为政。Koordinator v1.8.0 针对这三个痛点同时出手——新增 Koord-Queue 作业排队系统、强化 Reservation 预占能力、引入 Scheduling Hint 调度协同协议,还把异构设备支持拓展到...

Kubernetes 策略 enforcement 为什么总是太晚——以及如何把防线前移

来源:cncf.io 24
Kubernetes 的 Admission Controller 机制让集群在资源创建时拦截不合规的请求,看起来是一道坚固的门。但问题在于:这扇门开在部署那一刻。开发者写完 YAML、提交代码、跑完 CI、准备上线——然后被 Admission Webhook 一巴掌拍回来。反馈链条太长,代价太高。防线必须前移。 一个典型场景:开发者提交了一个缺少 ...

从 Ingress NGINX 到 Envoy Gateway:零停机迁移实战

来源:cncf.io 23
Kubernetes 网络正在从 Ingress 资源向 Gateway API 演进,这不是趋势预测——Gateway API 已经进入 GA,各大云厂商和社区项目都在围绕它构建新功能。对于已经在生产环境跑 Ingress NGINX 的团队,真正的问题不是"要不要换",而是"怎么换才能不中断流量"。 Ingress NGINX 在简单场景下足够好用...

用 Cilium 打通多集群网络:Azure Kubernetes Fleet Manager 的跨集群通信方案

来源:azure.microsoft.com 18
管理多个 Kubernetes 集群时,最让人头疼的不是集群本身,而是集群之间的网络。服务跨集群调用、流量路由、安全策略——每一层都得自己搭桥。Azure Kubernetes Fleet Manager 现在引入了基于 Cilium 的跨集群网络,把这件事从"自己造路"变成了"直接上高速"。 多集群架构在大型组织中已经很常见:开发、预发布、生产各一套...

在 Kubernetes 上把 LLM 冷启动压到 30 秒——网易游戏的实战路径

来源:cncf.io 32
弹性扩容听起来很美:流量来了就加 Pod,流量走了就缩容。但把这套逻辑搬到 LLM 推理服务上,现实会给你一记闷棍——模型权重动辄几十 GB,Pod 从零到可用,数据搬运的时间远比计算调度慢。网易游戏在生产环境中把这个冷启动过程压到了 30 秒,核心认知只有一句:弹性计算只有在数据能同等速度移动时才有意义。 一个典型 LLM 推理 Pod 的冷启动链路...