2026-05-19
来源:oschina.net
16
当前 Agent 开发的一个核心痛点是碎片化:写 Demo 用 LangChain 跑通流程很容易,但要让 Agent 在复杂环境中稳定运行,并把运行产生的交互数据反哺给模型做强化学习(RL)训练,往往需要自建一套沉重的数据清洗、分发与训练管线。字节 veRL 团队刚开源的 Uni-Agent,瞄准的就是这条断层线——它把 Agent 的构建、大规模运...
2026-05-19
来源:my.oschina.net
14
一线开发者对这套流程再熟悉不过:Crash 看板飘红 → 打开堆栈 → 看一眼觉得像内存问题 → 找对应模块负责人 → 对方说"我看看"→ 半天后回复"是第三方 SDK 的锅"→ 再拉 SDK 方排查 → 一轮下来半天没了。如果 Crash 量级大、版本多,专家基本被钉死在排查上,新功能迭代自然减速。 这篇文章讲的是:把这套依赖人的排查流程,交给一个结...
2026-05-19
来源:postgr.es
31
当前的 AI 基础设施讨论几乎被模型、GPU、推理速度和向量数据库占据。这些组件确实重要,但它们掩盖了一个更深的架构问题——随着企业从 AI 实验走向运营系统,这个问题正在快速浮现:记忆。 不是简单存储聊天记录或 embedding 的那种记忆,而是跨长时间交互中维持持久上下文、操作连续性、历史理解、工作流状态、推理可追溯性和业务感知的能力。大多数 A...
2026-05-19
来源:pytorch.org
22
在 ARM64 服务器上部署 GPU 推理,过去最让人头疼的不是模型本身,而是装 PyTorch。官方 PyPI 上长期只有 CPU 版的 aarch64 wheel,想用 CUDA 就得去找第三方索引、手动拼 URL、甚至自己编译——一条 跑完,拿到的是个没 GPU 支持的空壳。PyTorch 2.11 把这件事彻底改了:CUDA-enabled 的...
2026-05-18
来源:aws.amazon.com
33
金融市场的 AI Agent 一旦上线,回答质量直接关系到交易决策和合规风险。Amazon Bedrock AgentCore 最近开放了自定义代码评估器(custom code-based evaluator)能力,让你可以用 Lambda 函数对 Agent 输出做细粒度、可编程的质检——不再只能依赖内置的通用指标。 这篇文章围绕一个金融市场情报 ...
2026-05-18
来源:engineering.atspotify.com
31
Spotify 工程团队最近分享了一个关于 LLM Eval 实验设计的核心观点:把 LLM 评估当成漏斗,而不是一刀切的闸门。 这句话看似简单,但背后指向的是很多团队在用 LLM 做自动评估时踩的坑——把 eval 当成 binary pass/fail 的裁判,结果要么放过了坏输出,要么误杀了好输出。 很多团队拿到 LLM eval 的第一反应是:...
2026-05-18
来源:infoq.com
20
Anthropic 在旧金山举办的 "Code with Claude 2026" 活动上,一口气抛出三个方向性更新:托管 Agent 让开发者不再自己搭基础设施跑长任务;主动式工作流让 Claude 从"等指令"变成"推进度";能力阶梯曲线则试图把模型升级从模糊的"更强了"变成可预期的工程参数。GitHub、Vercel 和一批 AI-native ...
2026-05-18
来源:docker.com
20
Anthropic 的 2026 Agentic Coding Trends Report 指出,开发者日常工作中 AI 的介入比例正在快速攀升。Coding Agent 已经从"偶尔用用"变成了"默认开启"。但问题来了:这些 Agent 拥有读写文件、执行命令、调用 API 的能力,却几乎没有任何安全边界。每一次 都可能是一次无审计的特权操作。 这不...
2026-05-18
来源:oschina.net
31
刚从 DeepMind 离职的工程师 Lun Wang 抛出一个让人不安的判断:我们擅长评估已经存在的模型,却极不擅长评估即将构建的模型。尤其是当模型跨越到新的能力阶段时,现有的评估体系会失效——而你甚至不会察觉。 这不是一句空话。大多数基准测试、安全评估和红队演练协议都隐含一个假设:下一代模型是当前模型的更强版本。更强的推理、更广的知识、更快的响应。...
2026-05-18
来源:openai.com
15
OpenAI 的 Codex 编码智能体正在走出云端。与 Dell 达成合作后,Codex 将支持混合与本地部署模式,让企业把 AI 编码能力直接放进自己的数据中心,数据不出墙、流程不中断。这对合规要求严苛的金融、医疗、制造等行业来说,是一个从"观望"到"可用"的关键转折。 过去一年,大量团队试用过云端 AI 编码工具,反馈集中在两点:代码补全确实快,...