标签

平台工程

Slack AI 的多云之路:在企业级规模下可靠地服务大模型

来源:slack.engineering 29
2023 年初,Slack 面对一个底层问题:如何在企业级规模上服务大语言模型,同时满足客户对安全、可靠性和性能的预期。三年间,他们从最基础的基础设施起步,逐步演进到一套成熟的多云编排架构。这不是追逐新模型的炫技,而是要构建一个能抵御区域级故障、在云厂商之间灵活调度的系统。 LLM 推理的负载特征和传统 Web 服务截然不同——单次请求耗 GPU 算力...

Cloudflare 如何搭建统一数据平台 Town Lake 及其上的 AI Agent Skipper

来源:blog.cloudflare.com 17
Cloudflare 每天处理全球数十亿请求,日志、指标、事件数据散落在数十个系统中。工程师想查一个问题的根因,往往要跨 S3、ClickHouse、Kafka、Postgres 反复跳转。Town Lake 的出现,就是为了终结这种割裂——把所有分析数据统一到一处,再让 AI Agent Skipper 直接在上面回答问题。 Cloudflare 内...

伊朗网络部分恢复:如何用数据观测国家级断网与回潮

来源:blog.cloudflare.com 22
近三个月的漫长断网后,伊朗的互联网终于亮起微光。Cloudflare Radar 的最新数据证实了这一趋势:流量与 DNS 查询量出现明显回升,但整体网络活跃度仍停留在断网前 40% 的水平。这不是简单的"开关拨回",而是国家级网络管控下的一种受限恢复。对于关注全球网络连通性的工程师而言,这种宏观流量的骤降与回潮,提供了极有价值的观测样本。 Cloud...

用 Cloudflare CASB 监控 Claude Enterprise:安全团队的合规新路径

来源:blog.cloudflare.com 27
当企业把 AI 工具引入日常工作流,一个现实问题立刻浮现——谁在用什么数据调用了模型、调用了多少、有没有违规操作?Cloudflare 最近把 Claude Compliance API 接入了自家 CASB(Cloud Access Security Broker),安全团队现在可以在 Cloudflare Dashboard 里直接查看 Claud...

在 Cloudflare 上跑 Claude Managed Agents:全球部署、隔离执行、工具自定义

来源:blog.cloudflare.com 21
Anthropic 和 Cloudflare 联合推出了 Claude Managed Agents 的 Cloudflare 集成——把自主代码交付型 Agent 放进 Cloudflare 的隔离执行环境里跑。这意味着你不再需要自己搭容器集群、管安全边界、操心冷启动延迟,Agent 的运行、扩容和后端访问控制都由平台兜底。下面拆开看它到底解决了什么...

用安全大模型扫描生产代码:Project Glasswing 的实战观察

来源:blog.cloudflare.com 29
把安全大模型直接指向生产环境里的活代码,听起来既激进又诱人——自动化漏洞发现、批量审计、减少人力瓶颈。Project Glasswing 正是在做这件事:他们把 Mythos 及其他安全导向的 LLM 部署到基础设施的关键代码上,让模型直接"读"真实仓库。结果有惊喜,也有明显的短板,离规模化还有一段路。 Mythos 在扫描中展现出几个值得注意的能力:...

让页面切换快如闪电:GitHub Issues 的缓存、预取与 Service Worker 实战

来源:github.blog 23
打开 GitHub Issues 列表,点进一条 Issue,再切回列表——每次导航都要等白屏、等网络、等渲染。用户感知到的不是"毫秒级延迟",而是"又卡了"。GitHub Issues 团队最近把这套体验彻底翻新,核心武器只有三样:客户端缓存、智能预取、Service Worker。本文拆解他们的思路,并给出可直接落地的代码示例。 传统 SPA 的路...

ClickHouse 分区变更后计费任务卡死:一次隐藏锁竞争的排查与修复

来源:blog.cloudflare.com 23
Petabyte 级 ClickHouse 集群上做了一次看似合理的分区调整,结果核心计费任务集体卡死。监控面板一片绿,错误日志寥寥无几——问题不在数据量,不在磁盘 IO,而是藏在查询规划器里的一把锁。 故事的开头很典型:团队为了优化查询性能,调整了一张大表的分区键。变更上线后,写入和日常查询看起来一切正常,但每天凌晨跑的计费聚合任务突然从 30 分钟...

Browser Run 迁移到 Cloudflare Containers:更快、更稳、更弹性

来源:blog.cloudflare.com 33
在云端跑浏览器从来不是一件轻松的事。无头浏览器吃内存、占 CPU、冷启动慢,规模一大就容易成为整个系统的瓶颈。Browser Run 这次把底层从原来的运行环境整体迁移到 Cloudflare Containers,不只是换了宿主机——调度模型、资源上限、发布节奏都跟着变了。 Browser Run 的核心场景是:在服务器端启动一个真实浏览器实例,执行...

当"空闲"并不空闲:一个 Linux 内核优化如何变成 QUIC 性能陷阱

来源:blog.cloudflare.com 15
你用 QUIC 搭了一个高吞吐服务,压测时吞吐量看起来正常,但一旦进入稳态长连接——比如持续推送视频帧或批量数据——吞吐量突然跌到地板。抓包看没有丢包,RTT 也稳定,但 CUBIC 的拥塞窗口(cwnd)死死卡在最小值,怎么也涨不起来。 这不是网络问题,也不是你的应用逻辑有 bug。问题出在内核对"空闲"的判定逻辑上:它把 RTT 等待时间误判成了应...