AI and technology watch

AI 新闻

聚合过去 24 小时 AI 与开发者生态动态,并提供来源链接以便深入阅读。

---
AI HOT ·

Moderation scores 现已在 Responses API 和 Completions API 中可用。 在与生成相同的请求流程中返回审核信号,然后由你的应用决定如何使用它们进行记录、路由、审核或拦截。 https://developers.openai.com/api/docs/guides/moderation

04:03 OpenAI Developers @ OpenAIDevs 精选 71 OpenAI 产品更新 安全/对齐 推荐理由: OpenAI把内容审核直接嵌进生成API,以后开发者不用额外调审核接口,一步到位。做UGC产品的团队可以更方便地做风控。

OpenAI 产品更新 安全/对齐
AI HOT ·

Google Research 发布被动心率监测系统 PHRM

04:25 Google Research:Blog(网页) 精选 79 Google Research 开发了一种被动心率监测系统(PHRM),利用智能手机前置摄像头在日常使用中(人脸解锁后数秒内)捕捉面部视频,通过深度学习估算心率,平均绝对百分比误差(MAPE)低于10%(对比心电图金标准),满足各肤色人群的行业精度标准。系统将全天心率测量整合为每日静息心率(RHR),平均绝对误差(MAE)低于5 bpm(对比可穿戴设备)。研究同时发布了迄今最大规模的公开智能手机视频数据集及预训练模型PHRM-mini,合格研究人员可申请访问。 Google 数据/训练 端侧 论文/研究 推荐理由: Google 这项发表在 Nature 上的研究,把手机前置摄像头变成了被动心率仪,而且专门解决了深肤色人群精度差的老问题,虽然离产品还远,但方向很对,穿戴设备的护城河可能又浅了一点。

Google 数据/训练 端侧 论文/研究
AI HOT ·

OpenAI 发布《智能时代的生物防御》行动计划,以 AI 驱动生物韧性

04:53 OpenAI:官网动态(RSS · 排除企业/客户案例) 精选 61 OpenAI 提出一项名为“Biodefense in the Intelligence Age”的行动计划,旨在利用 AI 增强生物防御与韧性。该计划聚焦于构建 AI 驱动的生物安全能力,以应对未来可能出现的生物威胁。 OpenAI 安全/对齐 行业动态 推荐理由: OpenAI 第一次系统性地提出用 AI 增强生物安全韧性的路线图,不是模型发布,但对政策制定者和生物安全圈是必读文件。

OpenAI 安全/对齐 行业动态
AI HOT ·

当法律和监督依赖于转录内容时,70-80% 是不够的。 http://Rafiqspace.ai 通过微调 Nemotron Parakeet ASR 达到了 97.7% 的印尼语准确率(2.3% WER)-- 优于全球工具,同时每小时成本降低高达 90%。⚖️

05:39 NVIDIA @ nvidia 精选 60 行业动态 语音 部署/工程 推荐理由: 法律和监管依赖转录,70–80%不够,Rafiqspace.ai用微调Nemotron Parakeet把印尼语准确率推到97.7%,小时成本降90%,这种垂直优化才是ASR落地的真实信号。

行业动态 语音 部署/工程
AI HOT ·

Google AI for Developers 宣布推出开放权重的实时音乐模型 Magenta RealTime 2 (MRT2)。该模型可通过 MIDI 键盘、实时文本提示甚至手势进行演奏。MRT2 在 MacBook 上原生运行,延迟低于 200ms,提供开放权重、开源推理引擎以及配套应用和插件套件。

02:54 Google AI Developers @ googleaidevs 精选 70 Google Magenta Project : Introducing Magenta RealTime 2 (MRT2): the live music model you can play as an instrument. MRT2 offers MIDI and prompt c... Google 多模态 开源生态 模型发布 关联讨论 1 条 IT之家(RSS) 推荐理由: Magenta RealTime 2 把音乐生成从「后期制作」拉到了「实时演奏」,开放权重且延迟低于 200ms,音乐创作者值得立刻上手试试。

Google 多模态 开源生态 模型发布
AI HOT ·

Anthropic 表示 Claude 现在写 90% 以上的代码,并希望世界拥有 AI 暂停按钮

17:56 The Decoder:AI News(RSS) 精选 71 Anthropic 内部数据显示,Claude 承担了超过 80% 的生产代码编写,工程师每日代码产出是 2024 年的 8 倍。该公司目标是实现 AI 自我改进,这将引发巨大加速。为此 Anthropic 呼吁建立可验证的全球 AI 开发暂停机制,并表示若其他前沿实验室同样暂停,他们也会停止。 Anthropic 安全/对齐 编码 行业动态 推荐理由: Anthropic 首次公开内部 AI 代码自动化数据,90% 代码由 Claude 生成,这不止是效率提升,而是直接印证了 AI 自我加速的趋势,加上他们呼吁全球暂停按钮,前沿实验室的安全焦虑比以往更真实。 15:57 Tencent Hy @ TencentHunyuan 精选 74 腾讯混元联合人大开源PlanningBench评估框架 腾讯混元(Tencent Hunyuan)与中国人民大学高瓴人工智能学院合作,开源PlanningBench——一个可扩展、可验证的LLM规划能力评估与训练框架。该框架包含30+真实世界规划任务,支持自动验证和训练。PlanningBench旨在推动LLM从“说”到“做”的规划能力发展。资源已发布于arXiv、GitHub及HuggingFace。 智能体 arXiv GitHub 开源/仓库 推荐理由: 腾讯混元联合人大开源的 PlanningBench,补上了 LLM 从「会说」到「会做」之间规划能力评估的缺口,做 Agent 的同学可以直接用来评测和训练,开源即用。 14:22 Alibaba Cloud @ alibaba_cloud 精选 65 阿里云发布SkillClaw与Nacos的Agent技能进化循环 阿里云推出SkillClaw与Nacos结合,构建AI智能体技能进化流水线。关键特性:自动从真实对话中提取经验并封装为可复用技能(Skill);Nacos负责集中化版本管理、审核与审计;打破本地孤岛,实现团队安全共享与分发;形成完整的"生成-治理-分发"持续进化闭环。目标是将个人洞察转化为团队的AI资产。 智能体 产品更新 部署/工程 推荐理由: 阿里云把 Agent 经验沉淀做成了闭环,从个人踩坑到团队共享一条龙,这对企业 AI 落地是个真信号,做 Agent 平台的可以看看架构。 14:22 Alibaba Cloud @ alibaba_cloud 精选 76 PolarDB-X Zero 上线了! 无需注册。无需配置。只需一次 API 调用。 30 秒内获得一个全分布式数据库。 原生 HNSW 向量索引--内置兼容 MySQL 的引擎。 关系型 + 语义搜索--一条 SQL 语句。 AI 智能体就绪--MCP 协议、AI IDE 兼容(Cursor、Claude、Qod

Anthropic 安全/对齐 编码 行业动态 智能体 arXiv GitHub 开源/仓库 产品更新 部署/工程 MCP/工具 检索增强 搜索 教程/实践 具身智能 大佬观点 评测/基准 Google 开源生态 语音 OpenAI 数据/训练 端侧 论文/研究 Hugging Face 多模态 模型发布 现象/趋势 推理
AI HOT ·

更多 iOS 应用循环,现已集成至 Codex。 Build iOS Apps 插件让 Codex 可在应用内浏览器查看和测试你的 iOS 应用,打开 SwiftUI 预览,并无需离开 Codex 即可热重载编辑。

02:30 OpenAI Developers @ OpenAIDevs 精选 68 OpenAI 产品更新 编码 关联讨论 1 条 X:Tibo (@thsottiaux) 推荐理由: 对 iOS 开发者很实用,热重载和预览直接嵌进 Codex,减少工具间反复横跳,不过暂时还撼动不了 Xcode 的地位。

OpenAI 产品更新 编码
AI HOT ·

AI加速自我构建:Anthropic研究院报告揭示趋势

01:57 Anthropic:The Institute(旗舰研究长文 · 网页) 精选 82 Anthropic研究院报告指出,AI正加速AI开发:2021–2025年间工程师人均季度代码量提升8倍,截至2026年5月超80%合并代码由Claude生成。Claude Opus 3(2024年3月)可完成约4分钟软件任务,Claude Sonnet 3.7(2025年3月)提升至1.5小时,Claude Opus 4.6(2026年3月)可处理12小时任务。SWE-bench两年内从低个位数得分饱和;CORE-Bench约20%正确率在15个月后饱和。METR测试显示Claude Mythos Preview可连续工作至少16小时。但AI自主设定目标的能力仍存显著差距,完全自主递归自我改进尚未实现。 智能体 Anthropic 安全/对齐 现象/趋势 关联讨论 6 条 X:Anthropic (@AnthropicAI) X:Kim (@kimmonismus) X:Testing Catalog (@testingcatalog) X:Emad Mostaque (@EMostaque) Hacker News 热门(buzzing.cc 中文翻译) X:卡兹克 (@Khazix0918) 推荐理由: Anthropic首次披露AI辅助开发的内部数据,8倍代码产出、AI自动审查bug,趋势直指完全自主AI的临界点,每个开发者和政策制定者都需要读。

智能体 Anthropic 安全/对齐 现象/趋势
AI HOT ·

我们与 Shopify 合作,让你从想法到上线商店只需几分钟 只需告诉 Replit Agent 你想卖什么。它会: - 构建自定义店铺页面 - 创建你的 Shopify 商店 - 帮你添加商品 在 Shopify 中认领店铺,设置支付,即可开业。

02:05 Replit ⠕ @ Replit 精选 78 智能体 产品更新 推荐理由: Replit 把 Agent 从代码生成延伸到了实时开店,一句话建个定制店面上线卖货,这个集成对电商创业者来说是真正的零门槛。

智能体 产品更新
AI HOT ·

Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务

00:53 LMSYS:Blog(Chatbot Arena 团队) 精选 77 Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数,基于 Qwen3-4B 骨干,支持 100 种语言(内部评测覆盖 111 种),在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感(20+种)、风格、韵律(语速/音高/停顿)及音效。模型支持流式合成,文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计,统一调度 AR 解码与轻量计算,实现低延迟推理。 开源/仓库 教程/实践 语音 部署/工程 推荐理由: Higgs v3 把多语言和实时可控制整合进一个流式 TTS 模型,SGLang-Omni 为它搭好了多阶段推理的底座,做语音 Agent 的可以直接抄作业,这比多数论文落地快半拍。

开源/仓库 教程/实践 语音 部署/工程
AI HOT ·

Alex Imas 和 Phil Trammell:AGI 后什么仍然稀缺?

01:03 Dwarkesh Patel:Podcast & Blog(RSS) 精选 62 经济学家 Alex Imas 和 Phil Trammell 指出,AGI 时代机器人数量可以快速复制增长,但人类独特技能(以芭蕾舞演员为例)的数量保持不变,揭示了即使技术大幅进步,某些稀缺资源仍不可替代。 大佬观点 现象/趋势 推荐理由: Dwarkesh Patel 这次请的经济学家的访谈,把 AGI 后的稀缺性问题从哲学拉回现实。如果你在思考 AI 对就业和资产的影响,这篇比大多数技术博客更接近答案。

大佬观点 现象/趋势
AI HOT ·

专业技巧:将笔记本游戏化 不要只是阅读笔记--去调查它们。我们全新的福尔摩斯笔记本将学习变成一款互动侦探游戏。推理事实,发现线索,证明即使是最复杂的问题也能迎刃而解。 ➡️ https://goo.gle/Sherlock

01:30 NotebookLM @ NotebookLM 精选 60 Google 产品更新 推理 推荐理由: NotebookLM 的新 Sherlock Holmes 模板把笔记变成推理游戏,对学生党是个小乐子,但确实只是提示词包装,非用户未必感冒。

Google 产品更新 推理
AI HOT ·

Dreaming: ChatGPT 推出更强的记忆系统,更好记住用户偏好

00:05 OpenAI:官网动态(RSS · 排除企业/客户案例) 精选 77 ChatGPT 推出名为 Dreaming 的新记忆系统,能够更有效地记住用户偏好,并在跨对话场景中保持上下文的新鲜感和相关性,从而提升助手的个性化体验。 智能体 OpenAI 产品更新 关联讨论 6 条 X:OpenAI (@OpenAI) X:Greg Brockman (@gdb) X:宝玉 (@dotey) X:ChatGPT (@ChatGPTapp) X:Sam Altman (@sama) X:邵猛 (@shao__meng) 推荐理由: ChatGPT终于把记忆升级了,它不再每轮对话都像失忆的金鱼,做长期助手的用户会明显感觉到不同。不止记住偏好,还能跨对话保持上下文,这比很多同类产品都进一步。

智能体 OpenAI 产品更新
AI HOT ·

Hugging Face 为编码智能体重塑 hf CLI 输出格式

23:42 Hugging Face:Blog(RSS) 精选 66 Hugging Face 重新设计 hf CLI,使其同时服务人类用户和编码智能体(Claude Code、Codex 等)。CLI 通过环境变量自动检测智能体驱动,输出紧凑无截断的 TSV 格式,避免 ANSI 和交互提示,大幅降低 token 消耗。复杂多步任务中,不使用 CLI 的智能体 token 消耗最高达 hf CLI 的 6 倍。2026 年 4 月起,Hugging Face 追踪 Hub 智能体流量,Claude Code 约 4 万用户、近 4900 万次请求,Codex 紧随其后。 Hugging Face MCP/工具 产品更新 编码 推荐理由: HF CLI 现在会自动检测 agent 并切换输出,复杂任务上 token 消耗比 curl/SDK 节省 2-6 倍。如果你在用 Claude Code 或 Codex 操作 Hugging Face Hub,这是必读的升级指南。 23:15 SiliconFlow @ SiliconFlowAI 精选 72 Nex-N2-Pro 发布:基于 Qwen3.5 的 397B MoE 推理模型,性能达 GPT-5.5 水平 neolab 推出 Nex-N2-Pro,基于 Qwen3.5-397B-A17B,总参数 397B 的 MoE 推理模型,支持 262K 上下文与多模态(VLM),性能达到 GPT-5.5 和 Claude Opus 4.7 级别。模型可自动调节推理深度,减少 30-50% 思考 token 且无性能折损,在 Terminal Bench 2.1、GDPVal、SWE-Verified 上取得 SOTA。擅长智能体编码、深度搜索和工具使用,兼容 Claude Code、Cursor 等工具。硅基流动已提供 T+0 支持,前两周免费使用。 多模态 推理 模型发布 编码 推荐理由: 后训练模型能直追 GPT-5.5 和 Claude 4.7,免费两周,对做 agent 和 deep search 的人来说是难得的低成本试错机会。 23:09 The Verge:订阅版科技(RSS) 精选 82 台积电难以跟上AI需求:"我们只能支持这么多" 全球最大芯片制造商台积电表示,通过美国本土生产满足客户需求可能需要“非常长的时间”,凸显AI需求带来的产能压力。 其他 行业动态 推荐理由: TSMC 的产能警告不是 PR 话术,是真实的供需失衡,所有等着买 GPU 的 AI 公司都要做好长期作战准备。 22:34 OpenRouter @ OpenRouter 精选 67 DeepSeek 现已连续四周在我们平台的 token 份额排行榜上位居第一: https://openrouter.ai/rankings

Hugging Face MCP/工具 产品更新 编码 多模态 推理 模型发布 其他 行业动态 DeepSeek 教程/实践 语音 智能体 OpenAI 大佬观点 安全/对齐 开源/仓库 论文/研究 评测/基准 数据/训练 Anthropic Microsoft 开源生态 端侧 搜索 现象/趋势 xAI arXiv 视频 图像生成 部署/工程 GitHub
AI HOT ·

Nex-N2-Pro 发布:基于 Qwen3.5 的 397B MoE 推理模型,性能达 GPT-5.5 水平

23:15 SiliconFlow @ SiliconFlowAI 精选 72 neolab 推出 Nex-N2-Pro,基于 Qwen3.5-397B-A17B,总参数 397B 的 MoE 推理模型,支持 262K 上下文与多模态(VLM),性能达到 GPT-5.5 和 Claude Opus 4.7 级别。模型可自动调节推理深度,减少 30-50% 思考 token 且无性能折损,在 Terminal Bench 2.1、GDPVal、SWE-Verified 上取得 SOTA。擅长智能体编码、深度搜索和工具使用,兼容 Claude Code、Cursor 等工具。硅基流动已提供 T+0 支持,前两周免费使用。 多模态 推理 模型发布 编码 推荐理由: 后训练模型能直追 GPT-5.5 和 Claude 4.7,免费两周,对做 agent 和 deep search 的人来说是难得的低成本试错机会。

多模态 推理 模型发布 编码
AI HOT ·

Nemotron 3.5 ASR:为你的语言、领域或口音进行微调

21:42 Hugging Face:Blog(RSS) 精选 75 Nemotron 3.5 ASR 是一个 600M 参数的多语言流式语音识别模型,单个检查点覆盖 40 种语言-地区(含英、西、德、法、意、日、韩、中、阿拉伯等)。采用 Cache-Aware FastConformer 编码器与 RNNT 解码器,缓存内部状态避免重复计算,实现低延迟流式转录且不损失精度。模型原生输出带标点和大写的生产级文本,无需后处理。支持指定语言(target_lang=es-ES)或自动语言检测(target_lang=auto)。通过注意力上下文大小(att_context_size)可在推理时直接调节延迟-准确率权衡,范围从 80ms 到 1.12s,无需重新训练。模型以 NeMo 检查点形式发布,可用于微调以适配特定语言、领域或口音。 教程/实践 语音 推荐理由: 一个模型搞定40种语言的实时语音转文字,NVIDIA还给了完整微调代码和实测数据,做语音Agent和字幕的可以照着抄作业。

教程/实践 语音
AI HOT ·

台积电难以跟上AI需求:"我们只能支持这么多"

23:09 The Verge:订阅版科技(RSS) 精选 82 全球最大芯片制造商台积电表示,通过美国本土生产满足客户需求可能需要“非常长的时间”,凸显AI需求带来的产能压力。 其他 行业动态 推荐理由: TSMC 的产能警告不是 PR 话术,是真实的供需失衡,所有等着买 GPU 的 AI 公司都要做好长期作战准备。

其他 行业动态
AI HOT ·

OpenAI刚刚写道:"我们也看到了当今系统中递归自我改进(RSI)的早期迹象:AI开发本身正被AI加速。 我们预计这将加剧开发者与国家之间的竞争压力,并带来现有机构无法应对的治理挑战。 随着RSI的出现,社会将需要找到塑造AI发展轨迹的方法,确保其服务于人类利益。" 气氛变了,有事正在发生。

20:53 Chubby♨️ @ kimmonismus 精选 84 OpenAI 大佬观点 安全/对齐 推荐理由: OpenAI首次公开承认看到递归自我改进的早期迹象,等于摊牌说AI发展正在失控加速,接下来的竞争和监管博弈会非常激烈,所有关注AI安全的人都该认真读一下原文。

OpenAI 大佬观点 安全/对齐
AI HOT ·

NVIDIA Nemotron 3 Ultra 为长时间运行的智能体带来更快、更高效的推理能力

21:08 NVIDIA Technical Blog(开发者技术博客 · RSS) 精选 71 NVIDIA 发布 Nemotron 3 Ultra 模型,专为长时间运行的 AI 智能体设计。该模型能够在多轮对话中保持上下文、调用工具、调用子智能体,并高效处理复杂工作流。随着多智能体协作导致模型 token 数量快速增长,Nemotron 3 Ultra 通过优化推理流程显著提升速度并降低计算成本,使长期运行的智能体任务更加可行。 智能体 推理 模型发布 关联讨论 7 条 LMSYS:Blog(Chatbot Arena 团队) X:NVIDIA AI (@NVIDIAAI) X:NVIDIA (@nvidia) X:Kim (@kimmonismus) X:opencode (@opencode) X:Artificial Analysis (@ArtificialAnlys) IT之家(RSS) 推荐理由: NVIDIA 把 Nemotron 升级到 Ultra,瞄准长期运行 Agent 的效率瓶颈,如果你正在用多步 agent 跑生产流程,这个模型值得认真看一眼。

智能体 推理 模型发布