标签

Kubernetes

Kubernetes v1.36 新增路由同步计数指标:让 CCM Watch 模式的效果一目了然

来源:kubernetes.io 26
云环境里跑 Kubernetes,Cloud Controller Manager(CCM)的路由控制器一直在默默工作——每隔固定间隔,它就把集群节点信息同步到云厂商的路由表。问题是:节点没变化,它也在同步。对于 API 调用有严格速率限制的云厂商来说,这等于在白白消耗配额。Kubernetes v1.35 引入了 特性门控,把固定间隔轮询改成基于 W...

Kubernetes 1.36 混合版本代理晋升 Beta:多控制面升级期间不再误报 404

来源:kubernetes.io 29
多主节点集群在滚动升级时,新旧版本的 API Server 会短暂共存。一个请求如果恰好落到了还没认识新资源类型的旧节点上,就会拿到一个 ——但这个资源在集群里明明存在。这个看似无害的错误响应,实际上能触发垃圾回收误删、命名空间卡死删除等连锁事故。Kubernetes 1.28 引入的 Mixed Version Proxy(MVP)正是为了堵住这个漏...

Kubernetes v1.36 正式废弃 Service externalIPs:安全隐患终将清除

来源:kubernetes.io 33
Kubernetes Service 的 字段,从 1.21 起就被官方建议禁用,但一直没敢动手——因为怕破坏现有集群。五年后,v1.36 终于把这个"默认不安全"的功能正式标记为废弃,并给出了明确的移除时间线。如果你还在用这个字段,现在就是迁移的最后窗口。 的设计初衷很简单:在没有云厂商 LoadBalancer 的裸金属集群里,让 Service ...

AI Agent 当贡献者:KubeStellar 81% PR 接受率背后的工程实践

来源:cncf.io 19
去年 12 月中旬,KubeStellar Console 从零开始搭建——这是一个面向 Kubernetes 多集群管理的仪表盘项目,托管在 CNCF Sandbox 里的 KubeStellar 之下,后端用 Go 写。项目起步阶段人手有限,却要在短时间内交付可用的控制面。团队做了一个大胆的决定:让 AI Agent 不只是"辅助工具",而是直接以...

Pinterest 如何揪出 Kubernetes 集群里的"CPU 僵尸"

来源:infoq.com 23
Pinterest 的机器学习训练任务在 PinCompute(基于 Kubernetes 的内部平台)上频繁出现性能抖动——训练跑着跑着就慢了,吞吐量忽高忽低,却找不到明显的业务代码问题。最终,工程师把根因锁定在一个根本没在用的 Amazon ECS Agent:它悄悄制造了 memory cgroup 泄漏,导致 CPU 调度出现饥饿。禁用该 Ag...

Kubernetes v1.36:PodGroup 让调度从"逐个审批"变成"整组放行"

来源:kubernetes.io 29
AI/ML 训练和批处理任务有一个共同诉求:要么所有 Pod 同时跑起来,要么谁也别跑。Kubernetes 一直按 Pod 逐个调度,遇到这种"全有或全无"的场景就容易卡死——3 个 Pod 占了资源,第 4 个没位置,前 3 个白占着等,别人也用不上。v1.35 引入了 Workload API 和初步的 gang scheduling,但把运行状...

从 FluxCD 到全栈云原生:用 Kairos、k0rdent 和 bindy 搭建不可变基础设施平台

来源:cncf.io 15
RBC Capital Markets 的 Kubernetes 平台演进走了一条很务实的路线:先用 FluxCD 把 GitOps 的底座打牢,再逐步向上解决更硬的问题——节点操作系统不可变性、多集群生命周期管理、跨集群网络连通。Kairos、k0rdent 和 bindy 这三个项目分别对应这三层需求,组合起来构成了一套从裸金属到应用交付的完整链路...

Kubernetes v1.33→1.36:PSI 指标正式 GA,节点资源阻塞终于看得见

来源:kubernetes.io 23
CPU 利用率 80%,看起来还有余量——但调度延迟已经让关键 Pod 的请求排队数百毫秒。这种"利用率正常、实际已经卡死"的盲区,在 Kubernetes 里长期存在。v1.36 中 PSI(Pressure Stall Information)指标从 Beta 晋升 GA,意味着你终于有一个稳定接口,直接观测节点、Pod、容器三个层面的资源阻塞,而...

Cloud Custodian 十年:从云治理 DSL 到 AI Agent 时代的护栏

来源:cncf.io 27
云环境治理这件事,多数团队的做法是写脚本、跑巡检、手动整改——然后脚本散落各处,没人记得哪个还在跑。Cloud Custodian 用一种截然不同的方式解决这个问题:把治理逻辑写成声明式 YAML 策略,引擎无状态执行,一套 DSL 覆盖公有云、Kubernetes 和 IaC。项目进入 CNCF 孵化,走过十年,现在又面对一个新命题——当 AI Ag...

把 Kubernetes 升级从"吞时间怪兽"变成流水线

来源:cncf.io 21
Kubernetes 每年发布约三个小版本,每个版本的支持周期大约一年。这意味着你要么跟上节奏定期升级,要么冒险运行一个不再接收安全补丁的集群。现实是,很多团队每次升级都要花数周甚至数月——读 changelog、排查 API 废弃、逐个节点滚动、验证工作负载……升级本身成了工程时间的黑洞。 问题不在于 Kubernetes 太复杂,而在于我们把升级当...