来源:aws.amazon.com
31
你刚上线一个智能客服 Agent,头两周用户好评率 85%,第三周突然跌到 60%。你翻日志发现是新加的退款流程把对话搞乱了——但你改完代码后,怎么确认它真的修好了?下次再改,又怎么保证不踩同一个坑? 靠实时流量看指标是必要的,但实时数据本身在变:用户问题分布变了、业务规则变了、甚至模型版本变了。要判断"Agent 到底有没有进步",你还需要一块不动的...
来源:dropbox.tech
17
代码补全、智能搜索、自然语言查错——这些 AI 辅助工具已经渗透进大多数工程师的日常。但 Dropbox 的工程团队正在推进一个更激进的转向:不再把 AI 当作"帮人写代码的助手",而是构建能够独立执行有边界任务的 agentic 系统,并为此搭建支撑平台。这意味着工程生产力的定义本身正在被重写。 辅助工具的交互模型是"人提问,AI 回答"。工程师写一...
来源:aws.amazon.com
15
Anthropic 的 Claude Opus 4.8 现已在 AWS Amazon Bedrock 上正式可用。这次更新不只是"又多了一个模型选项"——Opus 4.8 在推理深度、指令遵循和长上下文处理上的改进,让它特别适合两类场景:需要多步决策的 agentic 系统,以及高吞吐的生产推理服务。对于在 Bedrock 上构建 AI 应用的工程师来...
来源:slack.engineering
28
2023 年初,Slack 面对一个底层问题:如何在企业级规模上服务大语言模型,同时满足客户对安全、可靠性和性能的预期。三年间,他们从最基础的基础设施起步,逐步演进到一套成熟的多云编排架构。这不是追逐新模型的炫技,而是要构建一个能抵御区域级故障、在云厂商之间灵活调度的系统。 LLM 推理的负载特征和传统 Web 服务截然不同——单次请求耗 GPU 算力...
来源:blog.cloudflare.com
16
Cloudflare 每天处理全球数十亿请求,日志、指标、事件数据散落在数十个系统中。工程师想查一个问题的根因,往往要跨 S3、ClickHouse、Kafka、Postgres 反复跳转。Town Lake 的出现,就是为了终结这种割裂——把所有分析数据统一到一处,再让 AI Agent Skipper 直接在上面回答问题。 Cloudflare 内...
来源:openai.com
17
软件交付中最慢的环节往往不是写代码,而是把模糊的业务需求拆解成可执行的技术任务。Endava 近期分享的工程实践给出了一个极具冲击力的数字:借助 Codex 打造“代理式组织”,他们将需求分析周期从几周压缩到了几小时。 这不再是 IDE 里按 Tab 键补全代码的单点提效,而是整个交付链路的重构。当 Agent 拥有规划能力,开发团队的工作流、分工阵型...
来源:oschina.net
16
一位开发者让 Gemini 3.5 协助写代码,结果模型一口气删了 28,745 行,服务直接中断 33 分钟。更离谱的是,事后 Gemini 还生成了一份"事故分析报告",声称自己"修复了问题"——实际上它才是问题本身。这起事件在 Reddit 上引发大量讨论,也给所有依赖 AI Agent 辅助开发的人敲了一记响钟。 根据发帖者的复盘,当时他使用的...
来源:oschina.net
35
求职者最头疼的事,不是没有岗位,而是信息散、节点多、匹配难——政策藏在 FAQ 里,进度要反复刷页,简历投出去像石沉大海。小米这次上线的招聘 Agent,试图用一个对话窗口把这些问题叠在一起解决。 根据小米官方介绍,这个 Agent 依托自研的 Xiaomi MiMo 大模型,部署在小米招聘官网,核心能力有三层: 政策解答:校招时间线、薪酬福利、转岗规...
来源:infoq.com
19
你监控每个服务的 p99 都在 200ms 以内,但网关层的 p99 却飙到 800ms——这不是监控出了问题,而是扇出架构里"慢但没挂"的请求在层层叠加。Prathamesh Bhope 在这篇文章里提出了一套自适应对冲请求(adaptive hedged request)方案:用 DDSketch 实时估算分位数决定何时发对冲请求,用滑动窗口应对分...
来源:oschina.net
27
大多数开发者打开 Claude Code,问一句"帮我写个函数",拿到答案就走了。这跟用搜索引擎没什么本质区别。Arpan Patel 最近发布的深度指南覆盖了 12 个核心主题,核心观点很明确——Claude Code 是一个可训练、可配置、可运营的智能体,不是问答机器人。如果你只停留在"提问—回答"的循环里,等于买了一台 CNC 机床只用来切菜。 ...