标签

CNCF

用 Kubernetes 与 GitOps 搭建云原生内部开发者平台:从集群到软件供应链的安全闭环

来源:cncf.io 34
现代软件交付的瓶颈早已不在应用代码本身——它卡在跑代码的平台上。团队写好了服务,却要花大量时间处理集群配置、权限审批、镜像签名、环境漂移。内部开发者平台(Internal Developer Platform,IDP)的目标就是把这些摩擦抹掉:开发者声明"我要一个生产环境的前端服务",平台自动完成从集群分配到镜像构建到安全校验到部署的全链路。 下面拆解...

Kubernetes 的集成税:当 Prometheus 搭不上 Cilium 的指标列车

来源:cncf.io 21
凌晨两点,Grafana 面板一片空白——不是服务挂了,不是网络断了,Hubble 的 DNS 可视化和 TCP 流量追踪一切正常。唯独 Cilium 的网络指标在 Prometheus 里消失了。这不是 bug,是集成出了问题。 这类"明明组件都在跑,数据就是串不起来"的场景,在 Kubernetes 生产环境中反复上演。每引入一个新组件,你以为获得...

用 KEDA 外部扩展器实现 Kubernetes GPU 自动伸缩

来源:cncf.io 27
跑 GPU 工作负载的开发者迟早会撞上同一堵墙:Kubernetes 默认的 HPA 只看 CPU 和内存,而你的瓶颈在 GPU。vLLM 推理服务排队不是因为 CPU 满了,而是显存吃紧、SM 占用率拉满;Triton 模型服务在 GPU 利用率 90% 时还在被 HPA 判定为"负载正常"。训练任务更离谱——一个 job 占满整张卡,HPA 对此毫...

用 Jaeger + OpenTelemetry 给 AI Agent 加上分布式追踪

来源:cncf.io 19
微服务时代,Jaeger 是工程师理解调用链的利器;如今 AI Agent 大量涌入生产环境,调用链从"服务 A → 服务 B"变成了"Agent 规划 → 调 LLM → 调工具 → 再规划"。链路更长、分支更多、失败模式更隐蔽。Jaeger 正在围绕 OpenTelemetry 做一轮针对性演进,让 Agent 的每一步决策都可观测。 微服务调用链...

Kubernetes 策略 enforcement 为什么总是太晚——以及如何把防线前移

来源:cncf.io 24
Kubernetes 的 Admission Controller 机制让集群在资源创建时拦截不合规的请求,看起来是一道坚固的门。但问题在于:这扇门开在部署那一刻。开发者写完 YAML、提交代码、跑完 CI、准备上线——然后被 Admission Webhook 一巴掌拍回来。反馈链条太长,代价太高。防线必须前移。 一个典型场景:开发者提交了一个缺少 ...

从 Ingress NGINX 到 Envoy Gateway:零停机迁移实战

来源:cncf.io 23
Kubernetes 网络正在从 Ingress 资源向 Gateway API 演进,这不是趋势预测——Gateway API 已经进入 GA,各大云厂商和社区项目都在围绕它构建新功能。对于已经在生产环境跑 Ingress NGINX 的团队,真正的问题不是"要不要换",而是"怎么换才能不中断流量"。 Ingress NGINX 在简单场景下足够好用...

多租户 SaaS 平台的端到端入站请求链路追踪设计

来源:cncf.io 28
一个租户的请求从网关进入,经过鉴权、编排引擎、数据服务,最终落到下游第三方 API——中间跨越了十几条微服务调用。当这位租户反馈"响应变慢",你打开监控面板,看到的却是一堆散落在各服务日志里的碎片化 trace ID,根本拼不出一条完整链路。这就是大多数云原生 SaaS 平台在可观测性上的真实困境。 单租户系统里,一个 就能串联整条调用链。多租户平台引...

KubeCon India 2026 孟买实战指南:从集群准备到街头生存

来源:cncf.io 21
2026 年 6 月 18-19 日,KubeCon + CloudNativeCon 首次登陆印度,选址孟买 BKC 的 Jio World Convention Centre。数千名云原生工程师即将涌入这座城市,很多人是第一次来。这篇文章不讲愿景,只讲实操——从你出发前该装什么工具,到落地后怎么在孟买的湿热里保持集群和身体都稳定运行。 参加 Kub...