标签

可观测性

用 React + Flask 反向代理嵌入 SageMaker MLflow,搭一个带 SigV4 鉴权的自定义实验追踪门户

来源:aws.amazon.com 25
SageMaker AI 现在支持托管 MLflow Server,但默认的访问方式要么走 SageMaker Studio 内部,要么依赖 AWS IAM 策略直接暴露端点——两者都不适合直接面向团队内部的非 AWS 用户。这篇文章给出了一套完整方案:React 前端嵌入 MLflow UI,Flask 反向代理自动签注 SigV4 请求,整栈用 C...

用 LangSmith 在 AWS 上评估深度 Agent:从离线测试到线上监控的完整路径

来源:aws.amazon.com 20
当你把一个 Agent 从 demo 推到生产环境,最大的问题不是"它能不能跑",而是"它跑得对不对、稳不稳"。深度 Agent——那种会多步推理、调用工具、自己纠错的 Agent——比单轮 LLM 调用难评估得多:一次对话可能触发 5 次工具调用,中间任何一步偏了,最终结果就废了。这篇文章把 LangChain 在深度 Agent 评估上的经验和 A...

Slack AI 的多云之路:在企业级规模下可靠地服务大模型

来源:slack.engineering 29
2023 年初,Slack 面对一个底层问题:如何在企业级规模上服务大语言模型,同时满足客户对安全、可靠性和性能的预期。三年间,他们从最基础的基础设施起步,逐步演进到一套成熟的多云编排架构。这不是追逐新模型的炫技,而是要构建一个能抵御区域级故障、在云厂商之间灵活调度的系统。 LLM 推理的负载特征和传统 Web 服务截然不同——单次请求耗 GPU 算力...

SamWaf v1.3.20:轻量私有 WAF 的实用升级,隧道 SSL 与压缩终于到位

来源:oschina.net 26
对小团队和独立开发者来说,网站防火墙往往处在"想用但嫌重"的尴尬位置——商业 WAF 按域名收费、云 WAF 要把流量过别人的节点,而自建 ModSecurity 规则维护成本不低。SamWaf 走的是另一条路:开源、单机私有部署、轻量到一台低配 VPS 就能跑。v1.3.20 这版补上了几个被反复催的功能,尤其是隧道 SSL 和压缩支持,让它在内网穿...

Inno Setup 6.7.3:深色主题下的启动卡顿修复与 PowerShell 安全加固

来源:oschina.net 23
Inno Setup 作为 Windows 安装包制作领域的老牌工具,近期从 7.x 分支回移植了两个关键修复:一是深色自定义向导样式下 RichEdit 控件在 Wine 环境中的启动延迟问题,二是示例脚本中 PowerShell 调用方式的安全隐患。这两个改动看似细节,但对实际打包流程有直接影响——如果你正在用 Inno Setup 制作带深色主题...

Google 安全工程师因 Polymarket 内幕交易被起诉:内部权限滥用的技术警示

来源:oschina.net 21
2026 年 5 月 27 日,美国司法部对 Google 信息安全工程师 Michele Spagnuolo 提起刑事诉讼——他利用职务权限访问公司内部机密数据,在区块链预测市场平台 Polymarket 上进行内幕交易,非法获利超过 120 万美元。案件本身是法律问题,但对任何管理内部敏感数据的技术团队来说,它暴露的权限滥用路径和检测盲区值得认真审...

Zadig v4.3:把运维对话、安全合规和飞书协作做成一件事

来源:my.oschina.net 33
云原生 DevOps 平台 Zadig 刚发布 v4.3,这次更新不是堆功能列表,而是瞄准三个让团队真正头疼的问题:安全合规审计反复补材料、发布流程在飞书和浏览器之间来回跳、运维操作靠人肉记命令。v4.3 把 AI 对话式运维、企业级安全合规、飞书深度闭环都做进了标准产品里——安全负责人、研发总监、一线工程师各有各的效率抓手。 过去 AI 在 DevO...

OpenAI 前沿治理框架:当模型能力撞上监管红线

来源:openai.com 27
2024 年,EU AI Act 正式落地,加州 SB 1047 等州级法案也在加速推进。前沿模型的能力边界每推一步,合规压力就紧一步。OpenAI 此刻公开其 Frontier Governance Framework,本质上是在回答一个问题:模型能力分级、风险评估和安全干预,能不能变成一套可操作、可审计的工程流程,而不是事后公关稿? 下面拆解这套框...

用 eBPF off-CPU 分析揪出内核锁竞争:LinkedIn 的排障实录

来源:infoq.com 33
数据库每隔一阵就短暂冻结,然后自动恢复,日志里什么线索都没留下——这种"幽灵故障"大概是运维最头疼的一类。LinkedIn 的工程师就撞上了这么一件事:驱动用户 Feed 的数据库反复出现短时间不可用,恢复后干净得像什么都没发生过。常规监控全副武装,却抓不到任何有价值的现场。 最终他们靠 eBPF off-CPU profiling 锁定了根因:一个内...

当 AI 开始自我进化:OpenAI 的安全防线与我们的实践路径

来源:oschina.net 23
GPT-4 已经在多数认知任务上逼近人类水平,这不再是营销话术,而是基准测试里的硬数据。但真正让研究者坐不住的,不是"AI 能做多少事",而是"AI 能不能让自己做得更好"——递归式自我改进(recursive self-improvement),一旦从理论走向现实,能力增长曲线将从线性切换到指数,而人类的安全护栏可能还停留在手动巡检阶段。OpenAI...