AI and technology watch

AI 新闻

聚合过去 24 小时 AI 与开发者生态动态,并提供来源链接以便深入阅读。

---
AI HOT ·

为什么金融机构正汇聚在交易基础模型上来构建自身智能

23:57 NVIDIA AI Blog 精选 69 金融机构正从为每个业务线构建独立AI模型,转向采用基于Transformer的交易基础模型,以统一理解消费者行为并克服数据孤岛限制。NVIDIA报告显示,65%的金融机构已使用AI,近90%正在部署或评估。实践案例包括:Revolut与NVIDIA合作构建了PRAGMA模型系列,在240亿事件上训练,单个模型在信用评分等领域超越特定任务模型;Mastercard正开发专有大型表格基础模型;Adyen的模型处理了1万亿美元支付;Stripe利用相关平台构建模型,去年阻止了近1120亿美元欺诈。 智能体 产品更新 数据/训练 关联讨论 2 条 NVIDIA Blog:Agentic AI(网页) NVIDIA Blog:Generative AI(网页) 推荐理由: 金融机构从散装模型走向统一transformer架构,这次连NVIDIA都给出了可跑的开发者示例,Revolut、Mastercard已经在用了,做金融数据的可以直接上手试试。 23:05 SenseTime @ SenseTime_AI 精选 81 商汤开源SenseNova-Skills AI办公技能套件 商汤开源了AI办公技能套件SenseNova-Skills。这是一个为任何技能兼容智能体(如OpenClaw与HermesAgent)设计的开源技能集合,提供四大核心功能:图像信息图表生成(可镜像参考风格)、数据分析(支持多表解析、清洗与可视化)、PPT创建(生成大纲内容并智能排版,输出可编辑文件)以及深度研究(跨学术、技术、社交等多源搜索并生成报告)。该技能套件现已完全开源。 智能体 图像生成 开源/仓库 推荐理由: 商汤掏出了一套开箱即用的 agent 技能包,从做图到写报告都能一键接,而且代码全在 GitHub 上。想做 agent 产品的可以直接 fork 当乐高用,比等 API 发布快多了。 22:58 OpenAI:官网动态(RSS · 排除企业/客户案例) 精选 69 OpenAI呼吁通过全球领导力推进青年AI安全与机遇 OpenAI呼吁通过设立专门的AI安全研究所,在全球范围内采取行动,以保障青少年在使用AI时的安全,并创造更多发展机遇。 OpenAI 安全/对齐 推荐理由: OpenAI正式发声呼吁成立青少年AI安全研究所,这件事的象征意义大于实际动作,但对所有做教育AI的公司是个明确的信号,青少年保护将成监管重点。 22:40 Hugging Face:Blog(RSS) 精选 73 Holo3.1:快速本地计算机使用智能体 Holo3.1 是基于 Qwen 模型家族的计算机使用智能体系列,旨在提升在桌面、网页和移动环境中的鲁棒性。新模型提供 0.8B、4B、9B 和 35B-A3B 四种尺寸,并首次发布量化检查点,包

智能体 产品更新 数据/训练 图像生成 开源/仓库 OpenAI 安全/对齐 Hugging Face 模型发布 开源生态 行业动态 部署/工程 Anthropic Google 评测/基准 arXiv 论文/研究 现象/趋势 端侧 具身智能 推理 GitHub MCP/工具 政策/监管
AI HOT ·

Gary Marcus:为什么事情终将崩塌

00:22 Gary Marcus:The Road to AI We Can Trust(RSS) 精选 58 知名人工智能批评者Gary Marcus在其关于可信赖AI的专栏中,探讨了人工智能发展面临的根本性挑战。文章开篇即指向问题的核心,指出相关数学理论的局限性与人类心理的复杂性,是导致AI系统最终可能出现问题的根源。 大佬观点 安全/对齐 推荐理由: Marcus用数学和心理学双重框架解释AI信任为何必然崩溃,比他以往只说深度学习不可信更完整,但核心还是那套,做安全的人可以看看有没有新论据。

大佬观点 安全/对齐
AI HOT ·

⚡ 新增服务商:DigitalOcean 的 AI-Native Cloud 现已在 OpenRouter 上线。 提供高性能推理,覆盖热门开源权重模型。在 DeepSeek V3.2 的输出速度和延迟方面排名第一(数据来自 @ArtificialAnlys)。 查看其数据并试用模型:https://openrouter.ai/provider/digitalocean

00:29 OpenRouter @ OpenRouter 精选 68 DeepSeek 产品更新 推理 部署/工程 推荐理由: OpenRouter 新上线的 DigitalOcean 推理服务,把 DeepSeek V3.2 的延迟压到了全场最低,比官方还快,做实时应用的值得立刻切过去试一下。

DeepSeek 产品更新 推理 部署/工程
AI HOT ·

MiniCPM-V 4.6 现已完全支持 vLLM v0.22.0! 无需自定义分支,无需额外编译。 只需拉取预构建包即可运行。 非常感谢 @vllm_project 的顺畅集成! 🤝 🤗 http://huggingface.co/openbmb/MiniCPM-V-4.6

22:21 OpenBMB @ OpenBMB 精选 67 产品更新 部署/工程 推荐理由: MiniCPM-V 4.6 现在 vLLM 原生支持,不用自己折腾编译和环境了,做多模态部署的可以无痛接入,国产端侧模型生态又往前走了一步。

产品更新 部署/工程
AI HOT ·

Nathan Lambert离开Ai2,结束2.5年OLMO等项目工作

22:33 Nathan Lambert @ natolambert 精选 75 Ai2(Allen Institute for AI)研究员Nathan Lambert宣布离职。他在Ai2工作超过2.5年,期间主导或参与了OLMO和Tulu等开源模型项目,称其为职业生涯的巅峰。他表示将暂时休息,未来仍会继续深耕开源模型与开放科学领域。 开源生态 行业动态 推荐理由: Olmo 和 Tulu 的核心推手离开 Ai2,对开放模型圈是个不小的人事地震,他下一步去哪,可能比这条离职声明更值得盯。

开源生态 行业动态
AI HOT ·

Holo3.1:快速本地计算机使用智能体

22:40 Hugging Face:Blog(RSS) 精选 73 Holo3.1 是基于 Qwen 模型家族的计算机使用智能体系列,旨在提升在桌面、网页和移动环境中的鲁棒性。新模型提供 0.8B、4B、9B 和 35B-A3B 四种尺寸,并首次发布量化检查点,包括 FP8、Q4 GGUF 和 NVFP4,以优化本地推理。在 AndroidWorld 基准测试中,35B-A3B 模型得分从 67% 提升至 79.3%。在 DGX Spark 上,NVFP4 量化相比 BF16 实现 1.74 倍 token 吞吐量提升,并将平均步骤时间从 6.8 秒缩短至 3.3 秒。模型支持函数调用协议,可在第三方智能体框架中部署。 智能体 Hugging Face 开源/仓库 模型发布 推荐理由: Holo3.1 把计算机使用代理从桌面扩展到了移动端,还首次放出了量化版,让本地运行真正快了起来。想做 GUI 自动化的开发者可以立刻跑起来了。

智能体 Hugging Face 开源/仓库 模型发布
AI HOT ·

OpenAI呼吁通过全球领导力推进青年AI安全与机遇

22:58 OpenAI:官网动态(RSS · 排除企业/客户案例) 精选 69 OpenAI呼吁通过设立专门的AI安全研究所,在全球范围内采取行动,以保障青少年在使用AI时的安全,并创造更多发展机遇。 OpenAI 安全/对齐 推荐理由: OpenAI正式发声呼吁成立青少年AI安全研究所,这件事的象征意义大于实际动作,但对所有做教育AI的公司是个明确的信号,青少年保护将成监管重点。

OpenAI 安全/对齐
AI HOT ·

Anthropic可解释性研究:区分因果效应相似的特征

17:52 Anthropic:Transformer Circuits(可解释性研究) 精选 63 Anthropic可解释性团队介绍了其Circuits研究的新进展。为区分那些激活模式相似但因果效应不同的模型特征,团队提出一种新方法。该方法通过分析特征的下游连接来预测其实际影响,并使用基于共激活统计的TWERA(虚拟权重)对连接进行加权排序。实验表明,借助下游连接信息能更准确地判断哪个特征会引导特定输出。此方法为识别模型内部真正的因果组件提供了新途径。 Anthropic 安全/对齐 论文/研究 推荐理由: 做可解释性研究的同学值得读,它用下游连接区分看似相同的特征,比只看激活例子更能预测因果作用,对齐审计里能省不少试错。

Anthropic 安全/对齐 论文/研究
AI HOT ·

🚀 AgentScope Java 1.1:构建可自我进化的智能体 ✨ Claw:具备Shell访问权限的本地"MinQwenPaw" ✨ Builder:多租户、零代码企业平台 ✨ 工作区驱动的进化与分布式隔离 从笔记本电脑到集群无缝扩展。👇 https://int.alibabacloud.com/m/1000413896/ #AgentScope #AIAgents #Java

18:06 Alibaba Cloud @ alibaba_cloud 精选 60 智能体 开源/仓库 推荐理由: 阿里云 AgentScope Java 版从「笔记本顺畅扩展到集群」的卖点很实在,自进化和零代码企业平台对 Java 生态的 Agent 开发者是个顺手的新选项,但没啥颠覆性创新。

智能体 开源/仓库
AI HOT ·

NLP领域2018-2025年人类标注报告实践的大规模审计

20:40 HuggingFace Daily Papers(社区热门论文) 精选 71 本研究对NLP领域2018至2025年间的人类标注报告实践进行了首次大规模审计。研究构建并验证了一个LLM辅助提取管线,其在Annotated-gold数据集(41篇论文,72个标注任务)上与人工裁决的一致性(Krippendorff's alpha)达到0.606。基于此,研究构建了Annotated-llm数据集,涵盖ACL会议论文,从1603篇论文中提取了2667个标注任务。分析发现,论文常报告招募策略、标注者专长等操作细节,但经常遗漏评估标注效度所需的关键信息,如培训、语言能力、薪酬、裁决过程及一致性数值。研究指出标注报告虽有改善但仍不均衡,并提出了一个可扩展的框架和最低报告标准。 arXiv Hugging Face 数据/训练 论文/研究 推荐理由: NLP论文里的标注环节一直是个黑箱,这篇首次用大规模数据把各家怎么标注、哪些信息缺失扒了个遍,值得每个做数据和评估的人细看。

arXiv Hugging Face 数据/训练 论文/研究
AI HOT ·

Gemini Spark:最令人印象深刻也最可怕的AI体验

21:02 The Verge:订阅版科技(RSS) 精选 71 Google DeepMind的AI模型Gemini Spark提供了一次极为深刻但同时令人感到不安的用户体验。该模型展现的强大能力令人印象深刻,但其带来的影响和潜力也引发了深刻的恐惧感。 智能体 Google 评测/基准 推荐理由: David Pierce 首次试用 Gemini Spark 的深度体验,一句话概括就是「impressive and terrifying」。它展示了 AI 代理在复杂任务中的惊人能力,但也让人看清未来有多渗人,任何做产品的人都该看一眼。

智能体 Google 评测/基准
AI HOT ·

Anthropic扩展Project Glasswing计划

21:28 Anthropic:Newsroom(网页) 精选 72 Anthropic正将其Project Glasswing计划扩展至约150个新组织,此前首批约50个合作伙伴。新伙伴分布于十五个多国家,覆盖电力、水务、医疗、通信和硬件等关键基础设施行业。这些合作伙伴的共同点在于,其代码库若遭成功攻击,后果可能极其严重,影响或超1亿人。项目旨在利用Claude Mythos Preview等前沿模型扫描漏洞并协助修复,以应对AI驱动的网络安全挑战。同时,Anthropic推出了基于Claude Opus 4.8等公开模型的Claude Security产品,用于扫描代码并建议补丁。 Anthropic 安全/对齐 行业动态 推荐理由: Anthropic把AI漏洞扫描从软件公司扩展到电力、医疗等命脉行业,这是一次攻防格局的真实倾斜,安全从业者该紧盯后续。

Anthropic 安全/对齐 行业动态
AI HOT ·

微软 Build 2026 开发者大会:关于 Windows、AI、RTX Spark 等的所有新闻

00:14 The Verge:AI(RSS) 精选 73 微软年度开发者大会 Build 2026 于 6 月 2 日在旧金山举行,主题演讲提供直播。预计将宣布新的 AI 模型、类似 OpenClaw 的智能体工具,以及配合 Windows 11 重大变革的 Copilot “超级应用”。此外,鉴于微软刚发布了搭载 Nvidia RTX Spark 的 Surface Laptop Ultra,本次大会可能还会有更多关于 Windows on ARM 的动态。 Microsoft 行业动态 推荐理由: 微软Build开场,预计会发新AI模型和Copilot超级应用,对Windows和ARM生态是方向标,开发者可以盯着Keynote。

Microsoft 行业动态
AI HOT ·

阶跃星辰发布其推理优化型模型Step 3.7 Flash。该模型为196B MoE架构,从设计之初就专注于推理效率。其采用多矩阵分解注意力机制,使KV-cache成本仅为DeepSeek模型的约22%;同时通过注意力与FFN解耦技术,实现了硬件优化的高效服务。该模型已通过Fireworks AI提供,采用Apache 2.0许可,并可用于构建智能体应用。

12:06 StepFun @ StepFun_ai 精选 69 Fireworks AI : Many research labs only consider inference efficiency after the fact. Step 3.7 Flash is a 196B MoE model, and built for ... 智能体 开源/仓库 推理 模型发布 关联讨论 1 条 X:阶跃星辰 StepFun (@StepFun_ai) 推荐理由: Step 3.7 Flash 不是堆参数,把 KV-cache 压到 DeepSeek 的 1/5 才是真信号,而且 Apache 2.0 直接可用,做 agent 的可以去 Fireworks 跑一个试试。

智能体 开源/仓库 推理 模型发布
AI HOT ·

OpenRouter 5月发布亮点

12:19 OpenRouter:Announcements(RSS) 精选 65 OpenRouter 发布5月更新,推出语音与转录API、模型融合(Model Fusion)功能,并为平台添加了私有模型和企业工作区管控能力。此次更新共上线20个新模型,其中包括 Gemini 3.5 Flash 和 Claude Opus 4.8。 MCP/工具 产品更新 部署/工程 推荐理由: OpenRouter 把模型融合和语音 API 做成内置功能,对用它的开发者是实打实的工作流升级,Gemini 3.5 Flash 和 Claude Opus 4.8 的接入反倒只算添头。

MCP/工具 产品更新 部署/工程
AI HOT ·

为了不花那120刀,我把电脑清理软件做成了开源skill

12:50 数字生命卡兹克 @ Khazix0918 精选 84 作者受一条推文启发,使用Codex对自己的MacBook进行了只读存储分析,发现了B站缓存视频等大量可清理空间(激进方案超140G)。为替代收费软件CleanMyMac,作者制作并开源了一个跨平台(支持Mac/Windows)的AI清理skill。该skill会扫描文件并生成可交互的HTML报告,通过三色分级(绿灯可放心清理、黄灯需人工判断、红灯禁止动)直观展示,并提供安全执行按钮。实测清理后释放了近120G空间,相比CleanMyMac仅扫描出的15.8G,其信息更透明、建议更详细。 智能体 GitHub MCP/工具 开源/仓库 推荐理由: 不花120刀就把Mac清理干净,卡兹克这个开源skill比CleanMyMac更透明、更懂你的乱七八糟。Agent让你直接说人话清垃圾,传统软件那层UI真的多余。

智能体 GitHub MCP/工具 开源/仓库
AI HOT ·

OpenWebRL:面向视觉网页智能体的在线多轮强化学习开源框架

13:40 HuggingFace Daily Papers(社区热门论文) 精选 73 OpenWebRL是一个用于在真实网站上通过在线多轮强化学习训练视觉网页智能体的开源框架,覆盖了完整的训练流程。基于该框架训练的OpenWebRL-4B模型,在仅使用0.4K条监督初始化轨迹和2.2K个开放式RL训练任务的情况下,在Online-Mind2Web基准上达到67.0%成功率,在DeepShop基准上达到64.0%,超越了同规模或更大规模的先前开源智能体,性能可与OpenAI CUA和Gemini CUA等闭源系统竞争。该工作为构建更强、可复现且高性价比的开源网页智能体提供了实践路径。 智能体 开源生态 推理 论文/研究 推荐理由: 做 Web Agent 的同行终于不用再羡慕闭源了。OpenWebRL 用 4B 模型和 2.2K RL 任务就逼近 OpenAI CUA,而且全开源,这路子值得认真读一读。

智能体 开源生态 推理 论文/研究
AI HOT ·

NVIDIA AI Cloud生态系统全球扩张,满足AI算力需求

13:48 NVIDIA Blog:Agentic AI(网页) 精选 61 NVIDIA AI Cloud生态系统正通过与CoreWeave、Firmus、IREN、Nscale等全球合作伙伴合作,加速在六大洲建设AI工厂基础设施。该生态系统结合NVIDIA的加速计算、网络和AI软件,帮助合作伙伴为模型训练、微调、推理以及智能体AI(agentic AI)应用提供服务。此举旨在满足前沿模型开发、企业AI、电信及国家AI计划的需求,并支持亚太、美洲和非洲等地区的区域性与主权AI产能发展。 智能体 行业动态 部署/工程 关联讨论 1 条 NVIDIA AI Blog 推荐理由: NVIDIA把AI云生态铺到六大洲,拉上CoreWeave、Firmus等一众伙伴建AI工厂,这波基础设施扩张是agentic AI从概念到落地的真实信号,做infra的该关注一下。

智能体 行业动态 部署/工程
AI HOT ·

NVIDIA 工厂运营蓝图为工厂打造 AI 大脑

13:48 NVIDIA Blog:Generative AI(网页) 精选 66 NVIDIA发布了工厂运营蓝图(FOX),这是一项用于构建自主工厂管理AI智能体的参考设计。该蓝图基于NVIDIA NemoClaw、AI-Q Blueprint及Nemotron开源模型构建,并针对DGX Station工作站进行了优化,可在配备GB300 Grace Blackwell Ultra芯片的本地环境运行。台湾制造商富士康、和硕、研华和纬创是首批部署FOX蓝图的厂商。其中,富士康基于该蓝图构建了MoMClaw多智能体系统,预计将根因分析时间缩短80%,劳动生产率提升15%,机器故障率降低10%。 智能体 产品更新 部署/工程 关联讨论 1 条 NVIDIA AI Blog 推荐理由: 工厂里的AI大脑终于有一个标准模板了,NVIDIA FOX蓝图直接给车间装上自主决策层,鸿海说根因分析快了80%,做制造的可以拿来抄作业。

智能体 产品更新 部署/工程