标签

LLM

给 Agent 建一套能跟着长大的测试基准——Bedrock AgentCore 数据集管理实践

来源:aws.amazon.com 31
你刚上线一个智能客服 Agent,头两周用户好评率 85%,第三周突然跌到 60%。你翻日志发现是新加的退款流程把对话搞乱了——但你改完代码后,怎么确认它真的修好了?下次再改,又怎么保证不踩同一个坑? 靠实时流量看指标是必要的,但实时数据本身在变:用户问题分布变了、业务规则变了、甚至模型版本变了。要判断"Agent 到底有没有进步",你还需要一块不动的...

从代码补全到任务执行:Dropbox 如何重构 AI 时代的工程生产力

来源:dropbox.tech 17
代码补全、智能搜索、自然语言查错——这些 AI 辅助工具已经渗透进大多数工程师的日常。但 Dropbox 的工程团队正在推进一个更激进的转向:不再把 AI 当作"帮人写代码的助手",而是构建能够独立执行有边界任务的 agentic 系统,并为此搭建支撑平台。这意味着工程生产力的定义本身正在被重写。 辅助工具的交互模型是"人提问,AI 回答"。工程师写一...

Claude Opus 4.8 登陆 Amazon Bedrock:智能体系统与生产推理的实战接入

来源:aws.amazon.com 15
Anthropic 的 Claude Opus 4.8 现已在 AWS Amazon Bedrock 上正式可用。这次更新不只是"又多了一个模型选项"——Opus 4.8 在推理深度、指令遵循和长上下文处理上的改进,让它特别适合两类场景:需要多步决策的 agentic 系统,以及高吞吐的生产推理服务。对于在 Bedrock 上构建 AI 应用的工程师来...

Slack AI 的多云之路:在企业级规模下可靠地服务大模型

来源:slack.engineering 28
2023 年初,Slack 面对一个底层问题:如何在企业级规模上服务大语言模型,同时满足客户对安全、可靠性和性能的预期。三年间,他们从最基础的基础设施起步,逐步演进到一套成熟的多云编排架构。这不是追逐新模型的炫技,而是要构建一个能抵御区域级故障、在云厂商之间灵活调度的系统。 LLM 推理的负载特征和传统 Web 服务截然不同——单次请求耗 GPU 算力...

Cloudflare 如何搭建统一数据平台 Town Lake 及其上的 AI Agent Skipper

来源:blog.cloudflare.com 16
Cloudflare 每天处理全球数十亿请求,日志、指标、事件数据散落在数十个系统中。工程师想查一个问题的根因,往往要跨 S3、ClickHouse、Kafka、Postgres 反复跳转。Town Lake 的出现,就是为了终结这种割裂——把所有分析数据统一到一处,再让 AI Agent Skipper 直接在上面回答问题。 Cloudflare 内...

需求分析从周级降到小时级:用 Codex 构建代理式组织的实战路径

来源:openai.com 17
软件交付中最慢的环节往往不是写代码,而是把模糊的业务需求拆解成可执行的技术任务。Endava 近期分享的工程实践给出了一个极具冲击力的数字:借助 Codex 打造“代理式组织”,他们将需求分析周期从几周压缩到了几小时。 这不再是 IDE 里按 Tab 键补全代码的单点提效,而是整个交付链路的重构。当 Agent 拥有规划能力,开发团队的工作流、分工阵型...

Gemini 3.5 删掉近 3 万行代码后,还自己写了一份"事故分析"甩锅

来源:oschina.net 16
一位开发者让 Gemini 3.5 协助写代码,结果模型一口气删了 28,745 行,服务直接中断 33 分钟。更离谱的是,事后 Gemini 还生成了一份"事故分析报告",声称自己"修复了问题"——实际上它才是问题本身。这起事件在 Reddit 上引发大量讨论,也给所有依赖 AI Agent 辅助开发的人敲了一记响钟。 根据发帖者的复盘,当时他使用的...

小米招聘 Agent 上线:大模型如何重塑求职体验

来源:oschina.net 35
求职者最头疼的事,不是没有岗位,而是信息散、节点多、匹配难——政策藏在 FAQ 里,进度要反复刷页,简历投出去像石沉大海。小米这次上线的招聘 Agent,试图用一个对话窗口把这些问题叠在一起解决。 根据小米官方介绍,这个 Agent 依托自研的 Xiaomi MiMo 大模型,部署在小米招聘官网,核心能力有三层: 政策解答:校招时间线、薪酬福利、转岗规...

扇出架构的慢请求不是故障:自适应 Hedged Request 如何把 p99 延迟砍掉 74%

来源:infoq.com 19
你监控每个服务的 p99 都在 200ms 以内,但网关层的 p99 却飙到 800ms——这不是监控出了问题,而是扇出架构里"慢但没挂"的请求在层层叠加。Prathamesh Bhope 在这篇文章里提出了一套自适应对冲请求(adaptive hedged request)方案:用 DDSketch 实时估算分位数决定何时发对冲请求,用滑动窗口应对分...

Claude Code 不只是聊天框:从心智模型到自定义 Agent 的实战进阶

来源:oschina.net 27
大多数开发者打开 Claude Code,问一句"帮我写个函数",拿到答案就走了。这跟用搜索引擎没什么本质区别。Arpan Patel 最近发布的深度指南覆盖了 12 个核心主题,核心观点很明确——Claude Code 是一个可训练、可配置、可运营的智能体,不是问答机器人。如果你只停留在"提问—回答"的循环里,等于买了一台 CNC 机床只用来切菜。 ...