标签

LLM

20 个销售 Agent 各自为战,谁来替用户做调度?

来源:aws.amazon.com 23
AWS 全球销售团队部署了超过 20 个领域专用 AI Agent——报价计算、客户画像、合同审查、竞品分析……每个 Agent 都能独立产出价值,但一线销售代表却要在不同系统间反复切换,自己判断"这个问题该找谁"。认知负荷没有减少,反而从"查资料"变成了"选 Agent"。Amazon Bedrock AgentCore 正是为解决这类编排问题而生:...

TokenSpeed 把 Qwen3.5-397B-A17B 推到 580 TPS:消灭内存拷贝的推理加速实战

来源:pytorch.org 24
大模型推理的瓶颈,很多时候不在算力,而在搬运。TokenSpeed 在 GPU 上跑 Qwen3.5-397B-A17B(397B 总参数、17B 活跃参数的 MoE 架构)冲到 580 tokens/s,核心思路就一条:系统性地消灭每一处不必要的内存拷贝。对做 Agentic 工作流的团队来说,这意味着长上下文、多轮工具调用的场景终于有了不卡顿的 G...

用 KEDA 外部扩展器实现 Kubernetes GPU 自动伸缩

来源:cncf.io 27
跑 GPU 工作负载的开发者迟早会撞上同一堵墙:Kubernetes 默认的 HPA 只看 CPU 和内存,而你的瓶颈在 GPU。vLLM 推理服务排队不是因为 CPU 满了,而是显存吃紧、SM 占用率拉满;Triton 模型服务在 GPU 利用率 90% 时还在被 HPA 判定为"负载正常"。训练任务更离谱——一个 job 占满整张卡,HPA 对此毫...

Cisco 用 OpenAI Codex 重塑企业级工程:AI 原生开发与缺陷自动修复的实战路径

来源:openai.com 27
当一家拥有数万工程师的网络巨头开始把 AI 编码代理嵌入核心开发流程,"AI 辅助写代码"就不再是个人工具层面的实验,而是企业工程范式的切换。Cisco 与 OpenAI 合作,将 Codex 引入企业级开发体系——从 AI 原生开发规模化,到 AI Defense 产品加速,再到缺陷自动修复(defect remediation),三件事指向同一个结...

Agent Skill 需要记忆时,MoonBit + Wasm 怎么走通这条路

来源:oschina.net 14
AI Agent 的 Skill 越写越多,一个老问题浮出水面:Skill 执行完就消失了,下次调用还得从零开始。短期记忆靠对话上下文撑着,长期记忆靠外部数据库兜着,但 Skill 自身运行时的中间状态——比如一次推理中缓存的向量索引、分步计算的部分结果——无处安放。 MoonBit 团队在这条路上做了一个选择:把 Skill 编译成 Wasm 模块,...

Azure Logic Apps 里跑 Python 和 JS:沙箱代码解释器让集成工作流变成 Agent 平台

来源:infoq.com 25
Logic Apps 过去是"连线工"——用预置连接器把 SaaS 服务串起来,逻辑靠条件分支和表达式拼凑。现在它多了一项硬能力:沙箱代码解释器。工作流中的 Agent 可以在运行时动态生成 Python、JavaScript、C#、PowerShell 代码,并在 Hyper-V 隔离会话中执行。这意味着 Logic Apps 从"编排引擎"正式跨入...

当搜索不再是蓝色链接:谷歌 Agent 化改革与 DuckDuckGo 的意外红利

来源:oschina.net 19
Google I/O 2025 成了搜索引擎行业的一道分水岭。谷歌宣布用 AI Agent 取代传统搜索结果页的蓝色链接列表——用户输入查询后,Agent 直接给出综合答案,而不是让你自己在一堆链接里翻找。改动上线几天内,用户反弹猛烈:5 月 20 日至 25 日,主打隐私和简洁的 DuckDuckGo 应用安装量周同比平均增长 18.1%,5 月 2...

深度研究 Agent 落地生产的实战教训

来源:infoq.com 28
当 LLM 从"单轮问答"进化到"多步推理+多跳检索+结构化输出",Deep Research Agent 就不再是玩具,而是真正能替人完成调研工作的系统。Thoughtworks 的 Sarang Kulkarni 在 Arc of AI 2026 大会上分享了他们在生产环境中部署多 Agent 深度研究系统的经验——这些教训值得每一个正在搭建 Ag...

数据湖里的关系问题,一条 Cypher 就能搞定——在 Postgres 里用 Apache AGE 做图查询

来源:postgr.es 28
数据湖让 Postgres 能读 S3 上的 Iceberg、Parquet 文件,聚合分析不再是问题。但一旦问题变成"沿着 referral 链路找到所有从网络内跳到网络外的路径,再算出涉及金额",纯 SQL 就开始力不从心——递归 CTE 写起来冗长,跑起来吃内存。Apache AGE 把 openCypher 图查询直接塞进 Postgres,图...