标签

云原生

分布式故障诊断终于有了统一考场:阿里云开源 RCA Benchmark

来源:my.oschina.net 25
分布式系统出故障时,定位根因往往比修复更耗时。微服务调用链一拉就是十几层,日志散落在几十个节点,告警风暴里真正有用的信号可能只有一条。AIOps 和 AI Agent 被寄予厚望,但"这个 Agent 到底行不行"一直缺少一把公平的尺子——各家自报准确率,数据集不公开,评估协议各搞各的。 阿里云联合信通院、中科院软件所 / 计算机网络信息中心、清华大学...

PGConf.dev 2026:PostgreSQL 三十周年,社区与技术都在经历关键转折

来源:postgr.es 30
2026 年对 PostgreSQL 是个特殊年份——项目诞生整整三十年。今年的 PGConf.dev 回到了温哥华,这场以贡献者和内核开发者为核心的小型会议,比任何其他 PostgreSQL 大会都更"真实":邮件列表里那些只出现在 commit 记录中的名字,突然就站在你旁边,端着咖啡和你讨论 patch 的边界条件。 但三十周年不只是庆祝。从会议...

Kubernetes 三个「不修」的 CVE 记录即将更正:你的扫描器可能突然报警

来源:kubernetes.io 26
Kubernetes 安全响应委员会(SRC)发现,几个已公开多年的 CVE 记录存在一个关键错误——它们标注了"已修复版本",但实际漏洞从未被修补。2026 年 6 月 1 日,这些记录将被更正为"所有版本受影响"。这意味着你的漏洞扫描器可能在原本"安全"的集群上突然报出新的告警。本文拆解三个未修复 CVE 的技术机理,并给出可立即执行的缓解配置。 ...

PGConf.dev 2026:Postgres 集群拓扑、物理读观测与排序的三道未解题

来源:postgr.es 22
刚从温哥华回来,PGConf.dev 2026 的技术讨论密度远超预期。Jeremy Schneider 在会后总结中梳理了几条真正触及 Postgres 设计短板的线索——不是"新功能很酷"那种,而是"我们一直假装没问题但其实有结构性缺口"那种。下面挑三条最值得生产环境用户关注的展开。 物理复制做高可用,已经是 Postgres 用户最主流的方案。但...

当 AI 编码代理成为「不可信工作负载」,隔离边界该怎么画?

来源:docker.com 15
今年早些时候,有人用 Claude Code 把整个博客迁移到 Astro——146 篇文章、6024 张图片、Canonical URL、JSON-LD、Sitemap,全套重写。他花了好几个小时写一份 skills 文件,教代理理解博客架构、部署流程、哪些文件绝对不能碰。结果确实跑通了:组件重写、Bug 修复、批量迁移,全由代理完成。 但这个故事的...

用 Jaeger + OpenTelemetry 给 AI Agent 加上分布式追踪

来源:cncf.io 18
微服务时代,Jaeger 是工程师理解调用链的利器;如今 AI Agent 大量涌入生产环境,调用链从"服务 A → 服务 B"变成了"Agent 规划 → 调 LLM → 调工具 → 再规划"。链路更长、分支更多、失败模式更隐蔽。Jaeger 正在围绕 OpenTelemetry 做一轮针对性演进,让 Agent 的每一步决策都可观测。 微服务调用链...

Koordinator v1.8:作业排队、资源预占与调度协同三箭齐发

来源:oschina.net 22
Kubernetes 集群跑久了,总会撞上几堵墙:高优先级作业排队没章法、低优先级 Pod 占着资源不放、调度器和重调度器各自为政。Koordinator v1.8.0 针对这三个痛点同时出手——新增 Koord-Queue 作业排队系统、强化 Reservation 预占能力、引入 Scheduling Hint 调度协同协议,还把异构设备支持拓展到...

Kubernetes 策略 enforcement 为什么总是太晚——以及如何把防线前移

来源:cncf.io 23
Kubernetes 的 Admission Controller 机制让集群在资源创建时拦截不合规的请求,看起来是一道坚固的门。但问题在于:这扇门开在部署那一刻。开发者写完 YAML、提交代码、跑完 CI、准备上线——然后被 Admission Webhook 一巴掌拍回来。反馈链条太长,代价太高。防线必须前移。 一个典型场景:开发者提交了一个缺少 ...

从 Ingress NGINX 到 Envoy Gateway:零停机迁移实战

来源:cncf.io 22
Kubernetes 网络正在从 Ingress 资源向 Gateway API 演进,这不是趋势预测——Gateway API 已经进入 GA,各大云厂商和社区项目都在围绕它构建新功能。对于已经在生产环境跑 Ingress NGINX 的团队,真正的问题不是"要不要换",而是"怎么换才能不中断流量"。 Ingress NGINX 在简单场景下足够好用...