Pinterest 如何揪出 Kubernetes 集群里的"CPU 僵尸"
来源:infoq.com
23
Pinterest 的机器学习训练任务在 PinCompute(基于 Kubernetes 的内部平台)上频繁出现性能抖动——训练跑着跑着就慢了,吞吐量忽高忽低,却找不到明显的业务代码问题。最终,工程师把根因锁定在一个根本没在用的 Amazon ECS Agent:它悄悄制造了 memory cgroup 泄漏,导致 CPU 调度出现饥饿。禁用该 Ag...