标签

AWS

云平台控制面单点依赖的代价:Railway 八小时全平台宕机复盘

来源:infoq.com 16
一家托管了三百万用户工作负载的平台,被自家云厂商的自动化系统一键拔线——没有预警,没有人工确认,连邮件通知都是事后才到。这就是 Railway 在 Google Cloud 上遭遇的真实事故:GCP 的自动化风控系统直接冻结了 Railway 的生产账号,导致整个平台瘫痪八小时,而受影响的不仅是 GCP 上的工作负载,连部署在 AWS 和裸金属服务器上...

给 SageMaker AI 上的大模型推理装上"全息仪表盘"——从 GPU 利用率到生成质量一站式可观测

来源:aws.amazon.com 25
大模型上线推理后,运维团队最怕的不是"模型不跑",而是"模型跑着但悄悄变差"。传统监控只盯着 GPU 利用率、请求延迟这些基础设施指标,对 LLM 输出质量——延迟首字时间(TTFT)、吞吐量(Tokens/s)、输出截断率——几乎一无所知。Amazon SageMaker AI 的 Inference Component 架构配合 CloudWatc...

PGConf.dev 2026:当贡献者聚在一起,Patch 才真正活起来

来源:postgr.es 28
大多数 PostgreSQL 大会的参会者以用户和 DBA 为主——听演讲、学调优、拿最佳实践回家。PGConf.dev 不一样。它吸引的是贡献者和社区核心成员,这意味着你带着 Patch 去现场,真的有人坐下来帮你 Review。 Robert Haas 负责组织周二的内容,横跨六个 Track。六轨意味着同一时段有六场不同方向的深度分享并行进行——...

在 SageMaker AI 上为形态丰富语言训练专属大模型——阿塞拜疆语实践

来源:aws.amazon.com 32
阿塞拜疆语属于突厥语族,一个词通过后缀叠加可以表达英语整句话的含义——名词有 18 种格变,动词时态与人称通过层层黏着完成。这种"形态丰富"(morphologically rich)的语言对大模型来说意味着两件事:词表膨胀极快,训练数据却极其稀缺。Azercell 作为阿塞拜疆最大电信运营商,需要在六周内从零搭建一套生产级训练框架,把通用基础模型改造...

用 React + Flask 反向代理嵌入 SageMaker MLflow,搭一个带 SigV4 鉴权的自定义实验追踪门户

来源:aws.amazon.com 24
SageMaker AI 现在支持托管 MLflow Server,但默认的访问方式要么走 SageMaker Studio 内部,要么依赖 AWS IAM 策略直接暴露端点——两者都不适合直接面向团队内部的非 AWS 用户。这篇文章给出了一套完整方案:React 前端嵌入 MLflow UI,Flask 反向代理自动签注 SigV4 请求,整栈用 C...

用 Flask 代理打通外部访问 Amazon SageMaker MLflow 的 REST 通道

来源:aws.amazon.com 22
很多团队在向云迁移的过程中,都会碰到一个现实问题:本地训练脚本、调度系统、监控面板已经围绕 MLflow 搭好了整套流程,但一旦把实验追踪服务搬到 Amazon SageMaker MLflow,外部系统就得装 MLflow SDK、配 VPC 网络才能连上——这对还在过渡期的组织来说改动面太大。AWS 最近给出的方案是:在 SageMaker MLf...

用 LangSmith 在 AWS 上评估深度 Agent:从离线测试到线上监控的完整路径

来源:aws.amazon.com 19
当你把一个 Agent 从 demo 推到生产环境,最大的问题不是"它能不能跑",而是"它跑得对不对、稳不稳"。深度 Agent——那种会多步推理、调用工具、自己纠错的 Agent——比单轮 LLM 调用难评估得多:一次对话可能触发 5 次工具调用,中间任何一步偏了,最终结果就废了。这篇文章把 LangChain 在深度 Agent 评估上的经验和 A...

给 Agent 建一套能跟着长大的测试基准——Bedrock AgentCore 数据集管理实践

来源:aws.amazon.com 31
你刚上线一个智能客服 Agent,头两周用户好评率 85%,第三周突然跌到 60%。你翻日志发现是新加的退款流程把对话搞乱了——但你改完代码后,怎么确认它真的修好了?下次再改,又怎么保证不踩同一个坑? 靠实时流量看指标是必要的,但实时数据本身在变:用户问题分布变了、业务规则变了、甚至模型版本变了。要判断"Agent 到底有没有进步",你还需要一块不动的...

Claude Opus 4.8 登陆 Amazon Bedrock:智能体系统与生产推理的实战接入

来源:aws.amazon.com 15
Anthropic 的 Claude Opus 4.8 现已在 AWS Amazon Bedrock 上正式可用。这次更新不只是"又多了一个模型选项"——Opus 4.8 在推理深度、指令遵循和长上下文处理上的改进,让它特别适合两类场景:需要多步决策的 agentic 系统,以及高吞吐的生产推理服务。对于在 Bedrock 上构建 AI 应用的工程师来...

用 Amazon Q 和 Snowflake Cortex 把 AML 警告排查从 90 分钟压到 5 分钟以内

来源:aws.amazon.com 24
反洗钱(AML)审查是金融机构里最让人头疼的重复劳动之一。一笔可疑交易触发警报后,合规分析师要翻客户历史、比对交易模式、查关联账户、写调查报告——一个警报从打开到关闭,30 到 90 分钟是常态。警报量大、人力有限,积压成了日常。 Amazon Q Business 的 Flows 功能和 Snowflake Cortex AI 的组合,通过 MCP(...