大模型做 Agent 时,最让人头疼的不是推理能力不够,而是工具调用不准——该调 API 时不调,不该调时瞎调,参数拼错、格式乱写,整个工作流直接断掉。Amazon SageMaker AI 最近的一篇实践文章给出了一个清晰的解法:先用监督微调(SFT)教会模型"怎么正确调用工具",再用直接偏好优化(DPO)让它学会"哪种调用方式更好",两步叠加,小语...
Spotify 首席架构师在 Code with Claude 大会上抛出一个判断:写代码本身已经不再是约束了。真正卡住交付速度的,是团队协作摩擦、重复的基建搭建、以及工具链对 AI Agent 的不友好。他们的应对方式是——用平台工程把开发者体验(DevEx)从"个人写代码"的维度,拉升到"团队+Agent 高效运转"的维度。 这个判断值得认真对待。...
Google 每天同时跑着成千上万个 A/B 实验——搜索、YouTube、Maps、Ads,每个产品都有自己的服务集群,每个集群又拆成几十个微服务。实验多了,问题就来了:用户在搜索页被分到实验 A,跳到结果页却被分到实验 B;曝光日志漏记了一条,结论就偏了;两个实验同时改同一个按钮的颜色,数据谁也说不清。 最近 Google 公开了它跨舰队的大规模 ...