AI 精选工程笔记

技术摘要

AI 精选与摘要技术文章、编程实践和人工智能新闻。

---

Inspektor Gadget 首次安全审计过关:零高危漏洞,补丁已全部到位

来源: oschina.net 22
CNCF 沙箱项目 Inspektor Gadget 刚完成了它的第一次独立安全审计,结论让生产环境用户松了口气——没有高危漏洞。审计由 OSTIF 协调、CNCF 资助,安全公司 Shielder 执行,报告、修复和加固建议全部公开。所有被提及的问题都已可修补。 这意味着什么?如果你正在集群里用 Inspektor Gadget 做 eBPF 调试和...

MuseScore 4.7.3 发布

来源: oschina.net 25
{ "title_zh": "MuseScore 4.7.3:修崩溃、调音量、改页码——小版本里的大改善", "body_zh": "# MuseScore 4.7.3:修崩溃、调音量、改页码——小版本里的大改善\n\nMuseScore 4.7 是一次功能大更新,但新版本难免带着新问题——部分用户遇到了崩溃,也有人发现某些乐器的音量明显偏小。4.7....

ACL 2026 美团六篇论文解读:大模型评测、推理优化与生成推荐的新进展

来源: tech.meituan.com 25
ACL 是自然语言处理领域最具影响力的顶会之一,美团今年有六篇论文被收录,技术方向横跨大模型评测、复杂流程推理、竞赛级数学思维优化、强化学习优化以及生成式推荐。这些工作不是孤立的学术探索——它们共同指向一个现实问题:大模型从「能对话」走向「能可靠地完成复杂任务」,中间还有哪些关键缺口需要补上。 评测论文的核心关切是:现有基准是否真的能区分模型的能力层级...

PostgreSQL 统计目标调高之后,ANALYZE 为什么会卡住——以及什么时候该这么做

来源: postgr.es 18
是 PostgreSQL 里一个容易被忽视的 GUC(Grand Unified Configuration)。默认值 100 对大多数场景够用,但当你把它推到 500 甚至更高时, 的耗时会暴涨——不过在某些数据分布下,这个代价换来的是查询计划质的飞跃。 PostgreSQL 的查询优化器不看原始数据,它看的是 里存的统计摘要。 决定 在每列上采集多...

How Preply combines AI and human tutors to personalize learning

来源: openai.com 27
{ "title_zh": "Preply 如何用 OpenAI 为每节课生成个性化摘要与练习", "body_zh": "在线语言学习平台 Preply 最近把 OpenAI 的能力嵌入到课后流程里:每次一对一课程结束后,系统自动生成学习摘要、个性化反馈和针对性练习题。这意味着学员不再只靠记忆回顾课堂内容,而是拿到一份结构化的"课后报告"。\n\n#...

用 MCP + Agentic AI 在代码审查中自动对齐安全需求与实现

来源: dropbox.tech 30
安全设计文档写得很完整,代码提交时却悄悄偏离——这是很多团队的真实痛点。威胁模型在 Confluence 里沉睡,PR 里的实现早已走了另一条路。Dropbox 近期公开了他们的做法:用 MCP(Model Context Protocol)把 Dash 内部的安全知识喂给 Agentic AI,让 AI 在代码审查阶段主动比对设计意图与实际代码,把"...

用按需与批量推理动态切换,构建弹性文档抽取管线

来源: aws.amazon.com 28
处理海量文档时,你总会面对一个矛盾:实时场景要求秒级响应,离线场景则更在意成本控制。Amazon Bedrock 同时提供了按需推理(On-demand)和批量推理(Batch)两种调用模式,但多数人只用了其中一种。把两者组合成一条动态切换的管线,才能在延迟和费用之间找到最优解。 Bedrock 的按需推理是同步调用——请求发出后等待模型返回结果,适合...

PostgreSQL Buildfarm 终于有了查询 API,不用再爬网页了

来源: postgr.es 27
PostgreSQL Buildfarm 是社区持续集成的基础设施——几十个成员在不同平台、不同分支上跑构建和测试,结果汇总到 Buildfarm 数据库。多年来,想拿这些数据的人只有一个办法:爬网页。Andrew Dunstan 最近收到同事询问,才发现确实没有正式 API,于是借助 Claude Code 动手写了一个,现在已经上线。 Buildf...

用 Agent-EvalKit 系统化评估你的 AI Agent

来源: aws.amazon.com 23
AI Agent 越来越多,但"它到底好不好用"这件事,大多数团队还在靠手动试几个场景、凭感觉判断。Agent-EvalKit 这个 Apache 2.0 开源工具包,试图把 Agent 评估从"拍脑袋"变成"有流程、有数据、可复现"的工程实践。它已经对接了 Claude Code、Kiro CLI、Kilo Code 等主流 AI 编码助手,并提供了...