标签

工程效能

云平台控制面单点依赖的代价:Railway 八小时全平台宕机复盘

来源:infoq.com 17
一家托管了三百万用户工作负载的平台,被自家云厂商的自动化系统一键拔线——没有预警,没有人工确认,连邮件通知都是事后才到。这就是 Railway 在 Google Cloud 上遭遇的真实事故:GCP 的自动化风控系统直接冻结了 Railway 的生产账号,导致整个平台瘫痪八小时,而受影响的不仅是 GCP 上的工作负载,连部署在 AWS 和裸金属服务器上...

PB级数据摄入管线零停机迁移:Meta 的反向影子与持续校验实践

来源:infoq.com 36
每天从 MySQL 搬运数 PB 级的社交图谱数据到下游数据仓库,任何一次管线迁移都像在高速行驶的汽车上换引擎——稍有不慎,就是全局性的数据延迟或丢失。Meta 最近完成了这项硬核操作,不仅实现了零停机迁移,还把管线的可靠性拉到了新水位。他们靠的不是运气,而是两套精准的工程利器:反向影子测试与持续校验监控。 社交图谱数据是 Meta 生态的命脉。好友关...

给 SageMaker AI 上的大模型推理装上"全息仪表盘"——从 GPU 利用率到生成质量一站式可观测

来源:aws.amazon.com 26
大模型上线推理后,运维团队最怕的不是"模型不跑",而是"模型跑着但悄悄变差"。传统监控只盯着 GPU 利用率、请求延迟这些基础设施指标,对 LLM 输出质量——延迟首字时间(TTFT)、吞吐量(Tokens/s)、输出截断率——几乎一无所知。Amazon SageMaker AI 的 Inference Component 架构配合 CloudWatc...

Python assert:用对了是利器,用错了是隐患

来源:realpython.com 18
很多开发者对 的理解停留在"写个检查,报错就停"的层面,但它在 Python 里有明确的设计意图和使用边界。搞清楚这些,你才能在调试、测试和文档化代码时真正发挥它的价值,而不是在生产环境里埋雷。 语句的完整语法是: 如果 为假,抛出 ,并把 作为错误信息;如果为真,什么都不发生。本质上它等价于: 关键点在于 。这个内置常量默认为 ,但当 Python ...

用 Kubernetes 与 GitOps 搭建云原生内部开发者平台:从集群到软件供应链的安全闭环

来源:cncf.io 34
现代软件交付的瓶颈早已不在应用代码本身——它卡在跑代码的平台上。团队写好了服务,却要花大量时间处理集群配置、权限审批、镜像签名、环境漂移。内部开发者平台(Internal Developer Platform,IDP)的目标就是把这些摩擦抹掉:开发者声明"我要一个生产环境的前端服务",平台自动完成从集群分配到镜像构建到安全校验到部署的全链路。 下面拆解...

用自然语言做故障演练:阿里开源 Blade AI 智能体,让混沌工程变成日常

来源:oschina.net 36
混沌工程的价值没人质疑,但真正坚持做故障演练的团队不多。原因很简单——一次完整的演练,从场景设计、参数计算、命令构造、执行观测到结果回收,动辄耗费半天。ChaosBlade 已经把故障注入的能力做得很全,但"人 → ChaosBlade"之间那段路,依然又长又陡。 阿里最近开源的 Blade AI,瞄准的就是这段路。它不是 ChaosBlade 的替代...

VS Code 1.122:离线也能跑自己的大模型,浏览器里直接测响应式

来源:oschina.net 20
VS Code 1.122 把两件开发者高频要做的事推到了编辑器内部:一是用自己部署的大模型写代码,二是看页面在不同屏幕上的表现。前者通过 Air-gapped BYOK 让你断网也能调用本地模型,后者用浏览器设备模拟把"开 Chrome DevTools 切设备"的流程收进了 VS Code。再加上更丰富的问题报告机制,这个版本在"编辑器即工作台"这...

不再为 JSON 纠结:MySQL HeatWave Document Store 的混合之道

来源:blogs.oracle.com 22
用户画像、IoT 遥测、AI 提示词日志、商品目录——现代应用每天都在吞吐大量半结构化数据。这些数据天生带着 JSON 的灵活基因,字段随时增减,嵌套层级深浅不一,硬塞进严苛的关系型表结构里,往往意味着无休止的 和痛苦的 ORM 映射。 但另一方面,企业又很难彻底拥抱纯文档数据库。事务一致性、细粒度权限控制、成熟的运维生态,以及最关键的——对海量数据做...

从代码补全到任务执行:Dropbox 如何重构 AI 时代的工程生产力

来源:dropbox.tech 18
代码补全、智能搜索、自然语言查错——这些 AI 辅助工具已经渗透进大多数工程师的日常。但 Dropbox 的工程团队正在推进一个更激进的转向:不再把 AI 当作"帮人写代码的助手",而是构建能够独立执行有边界任务的 agentic 系统,并为此搭建支撑平台。这意味着工程生产力的定义本身正在被重写。 辅助工具的交互模型是"人提问,AI 回答"。工程师写一...