AI and technology watch

AI 新闻

聚合过去 24 小时 AI 与开发者生态动态，并提供来源链接以便深入阅读。

---

AI HOT · 2026-07-10 08:17

Mistral 推出 Studio，为 AI 提示词和技能提供系统记录

22:33 Mistral AI：News（网页）精选 55 Mistral 今日推出 Studio，为 AI 提示词和技能提供集中式系统记录。平台将 prompts 和 skills 视为生产资产，支持不可变版本、回滚、明确所有权、分类标签和审计日志，保证变更可追溯。非开发者可直接编辑测试，通过标签将变更推送至生产，保留原有 CI/CD 流程。可观测性让生产输出回溯到对应资产版本，形成闭环治理。现面向 Mistral Studio 客户开放。 MCP/工具产品更新部署/工程推荐理由：企业提示词管理混乱是真实痛点，Studio 这次更新把治理和迭代闭环做进了生产系统，比单独的目录工具更进一步。

MCP/工具产品更新部署/工程

AI HOT · 2026-07-10 06:00

Robbyant 发布 LingBot-VLA 2.0：开源 6B 跨实体机器人视觉-语言-动作模型

08:57 MarkTechPost（RSS）精选 70 Robbyant 推出 LingBot-VLA 2.0，一个 6B 参数的开源视觉-语言-动作（VLA）基础模型。它以 Qwen3-VL-4B-Instruct 为骨干，采用 MoE 动作专家架构，通过 55 维规范向量统一表示不同机器人的状态和动作。训练数据涵盖约 60,000 小时高质量数据（50,000 小时机器人轨迹 + 10,000 小时第一人称人类视频），覆盖 20 种机器人配置。在 GM-100 双机械臂基准测试中，模型在多个平台上超越 π0.5 和之前版本。模型权重、代码和技术报告已以 Apache-2.0 许可开源。具身智能开源生态模型发布推荐理由：蚂蚁Robbyant放出的开源VLA 2.0把通用机器人策略往前推了一步，60,000小时跨具身数据、统一动作空间和MoE设计对做机器人的团队是实打实的参考，不是又一个lab-only的demo。

具身智能开源生态模型发布

AI HOT · 2026-07-10 06:00

蚂蚁灵波开源全球首个面向具身智能的MoE视频基模LingBot-Video

15:16 IT之家（RSS）精选 72 蚂蚁灵波科技正式开源LingBot-Video，这是全球首个基于MoE架构、面向具身智能的视频生成基础模型。总参数30B，推理时仅激活约3B，效率较同规模Dense架构提升约3倍。模型引入7万小时VLA、VLN、Ego等机器人数据，并通过多维强化学习奖励系统对齐物理合理性与任务完成度。在RBench上总分0.620，超越Wan2.6等模型；在Physics-IQ Verified评测中排名第一。可用于机器人动作预测、仿真数据生成等方向。具身智能开源/仓库模型发布推荐理由：蚂蚁灵波开源了首个面向具身智能的视频基模，用MoE控制推理成本，对机器人仿真和世界模型研究是个真工具，做具身的可以跑起来了。

具身智能开源/仓库模型发布

AI HOT · 2026-07-10 06:00

蚂蚁灵波开源实时交互世界模型 LingBot-World 2.0

15:16 IT之家（RSS）精选 73 蚂蚁灵波开源新一代实时交互世界模型 LingBot-World 2.0（14B 参数），支持施法、攻击、跳跃等丰富角色动作及文本驱动事件（如切换场景、召唤风暴），内置 Pilot Agent 与 Director Agent 实现世界持续演化，并支持多人同时交互。模型采用因果预训练范式和混合双向自回归注意力掩码（MoBA），可稳定输出 720p/60fps 实时画面，长达一小时测试画质不衰减。通过一致性蒸馏与 DMD 降低采样成本，结合注意力 kernel 优化、混合并行推理、动态 KV 缓存调度和异步流媒体传输实现低延迟交互。模型权重及推理代码以非商用协议开源，SGLang 已适配，并提供 Reactor PC 端和灵光 APP 在线体验。具身智能多模态开源生态模型发布推荐理由：蚂蚁灵波这个开源世界模型把实时世界生成推到了小时级还不崩，720p/60fps实时交互，做开放世界游戏或自动驾驶仿真的团队值得上手测。

具身智能多模态开源生态模型发布

AI HOT · 2026-07-10 06:00

NVIDIA 发布 Nemotron-Labs-3-Puzzle-75B-A9B：压缩混合 MoE 模型，服务器吞吐量提升 2.03 倍

16:57 MarkTechPost（RSS）精选 70 NVIDIA 发布 Nemotron-3-Super 的压缩变体 Nemotron-Labs-3-Puzzle-75B-A9B，总参数从 120.7B 降至 75.3B，活跃参数从 12.8B 降至 9.3B，保持 88 块混合布局（40 Mamba、40 MoE、8 注意力）。在 8×B200 节点上，8K/64K 场景匹配用户吞吐量≥100 tok/s 时，服务器吞吐量提升 2.03 倍。单 H100 上 1M-token 并发从 1 增至 8，权重占用从 70 GB 降至 44.5 GB。迭代式 Puzzle 方法平均得分比单步高 0.57。代价：Arena-Hard-V2 降 4.2 分、SWE-Bench 降 2.6 分。Hugging Face 提供 BF16、FP8、NVFP4 检查点。模型发布部署/工程关联讨论 1 条 MarkTechPost（RSS）推荐理由：把120B MoE压到75B后，同节点服务吞吐几乎翻倍，单张H100百万token并发从1涨到8。对长上下文RAG和AI编码助手这类对吞吐敏感的产品来说，这不是论文调优，是实打实的降本方案。

模型发布部署/工程

AI HOT · 2026-07-10 06:00

法国对英伟达反垄断调查接近尾声，聚焦 CUDA 生态和产业投资

21:16 IT之家（RSS）精选 71 法国竞争管理局确认，对英伟达的反垄断调查已近尾声，即将发布正式异议声明。调查聚焦两大问题：市场对CUDA平台的严重依赖，以及英伟达对CoreWeave等AI云计算公司的投资。英伟达占全球AI加速器超70%份额。若认定滥用市场支配地位，最高可处全球年营业额10%罚款。法国是首个准备正式指控英伟达的监管机构。政策/监管数据/训练推荐理由：法国快成为全球首个正式指控英伟达反垄断的监管机构，争议在CUDA生态紧耦合与芯片投资，这个案子能不能动摇AI芯片供应链，是所有人都该关心的节点信号。

政策/监管数据/训练

AI HOT · 2026-07-10 06:00

Claude 推出反思功能（Beta）

21:40 Anthropic：Newsroom（网页）精选 73 Anthropic 为 Claude 推出一项反思功能（Beta），帮助用户追踪使用模式。用户可回顾过去 1、3、6 或 12 个月的活动总结，涵盖关键主题、使用频率和任务类型。功能结合 4D AI Fluency Framework（委托、描述、辨别、勤勉）提供协作分析，支持设定静音时段或定时休息提醒。隐私方面，不涉及无痕对话和健康集成工具，也不提取连接工具中的底层文件。该功能面向 Free、Pro 和 Max 用户，需开启记忆功能，可通过 Claude 网页或桌面应用设置。 Anthropic 产品更新推荐理由：这是大模型公司第一次认真讨论‘人机边界’，上线了帮你看清自己怎么用 Claude 的反思仪表盘，我觉得做产品的可以思考一下这个设计思路。

Anthropic 产品更新

AI HOT · 2026-07-10 06:00

TeXada：基于MiniCPM的本地数学Agent发布

22:15 OpenBMB @ OpenBMB 精选 71 社区开发者基于MiniCPM5-1B和MiniCPM-V 4.6构建了本地优先的数学智能体TeXada。该Agent支持自然语言直接转LaTeX、手写/图像公式OCR转可编辑LaTeX、LaTeX补全与错误修复等核心功能。所有推理在本地完成，无需依赖云服务，保障隐私安全，适用于学生、研究人员和开发者随时随地处理数学表达式。已开源至GitHub，并提供HuggingFace模型下载。智能体 GitHub 开源/仓库端侧推荐理由：社区开发者用 MiniCPM 轻量模型做的本地数学助手，LaTeX 输入变得像聊天一样自然，是个小而美的端侧实用案例。

智能体 GitHub 开源/仓库端侧

AI HOT · 2026-07-10 05:59

AI预检检查：智能体工作记忆架构

07:38 Tomer Tunguz 博客（VC 分析）精选 57 一种为AI智能体设计的预检工作记忆架构：查询到来时，系统从磁盘上约90个索引化的技能库中检索最相关技能，仅加载到上下文窗口。本地开源模型Ornith 35B（350亿参数，通过Ollama在Apple Silicon上运行）执行任务，约80%常规任务由本地模型完成，困难任务路由至前沿模型。看门狗记录每次预检决策和技能调用，夜间通过异步推理处理全天轨迹，自动决定哪些技能需新增或固化（如日历排期转为确定性Rust代码），实现自我改进循环。昨天，看门狗首次未提出任何改进建议，系统或接近性能平台期。智能体大佬观点部署/工程推荐理由： Tunguz 把代理的记忆问题拆成预检+看门狗，不是大模型调参，而是软件架构层的优化，做 agent 的开发者可以直接偷师。

智能体大佬观点部署/工程

AI HOT · 2026-07-10 04:48

Meta超级智能实验室推出首个媒体生成模型组Muse Image和Muse Video

5 5 信源 · 2小时前

AI HOT · 2026-07-10 03:41

Meta Superintelligence Labs 推出 Muse Image 和 Muse Video

5 5 信源 · 1小时前

AI HOT · 2026-07-10 02:31

OpenAI 推出 GPT-5.6 Sol，在编码、浏览、安全、科学、长上下文及智能体任务上表现强劲。多个基准测试中，Sol 以更少 tokens、更短时间或更低成本接近或刷新 SOTA：Agents' Last Exam 达 52.7%（超越 GPT-5.5、Claude Fable 5 等），Terminal-Bench 2.1 上 Sol Ultra 达 91.9%（高于 Claude Mythos 5 的 88.0%），BrowseComp 达 92.2%，OSWorld 2.0 达 62.6%，Coding Agent Index 得分 80，SEC-Bench Pro 达 74.3

02:22 Chubby♨️ @ kimmonismus 精选 76 Chubby♨️ : GPT-5.6 is here but also the long awayited Superapp the tl;dr The model side is impressive, but expected: GPT-5.6 Sol is... 智能体 OpenAI 推理模型发布推荐理由： GPT-5.6 这次不止是模型分数提升，ChatGPT Work 把文档、Slack、Notion 等整合成输出，这可能是 OpenAI 对应用层的真正押注，产品人得看看。 01:40 Anthropic：Newsroom（网页）精选 56 Anthropic发起"硬问题"倡议，邀请公众提出AI相关尖锐问题 Anthropic作为公益公司，发起“硬问题”倡议，邀请公众就AI对就业、社会、家庭、科学医学等领域的影响提出最尖锐的问题。此前已通过多种方式收集看法：首轮调查询问5.2万美国人；通过Anthropic Interviewer调查了159个国家70种语言的8.1万Claude用户；开展数十场线下焦点小组；并基于匿名真实数据研究Claude使用情况。公司还设立了Anthropic Institute和Long-Term Benefit Trust以监督公益使命进展。Anthropic承诺将公开追踪并报告针对这些问题的具体行动及成效。 Anthropic 安全/对齐行业动态推荐理由： Anthropic 不再只做技术输出，开始系统性收集公众对 AI 的恐惧和期待，并承诺公开回应——这是头部 AI 公司一次认真的公共对话实验，值得关注后续回应。 01:29 Sam Altman @ sama 精选 72 显然是我们有史以来最好的模型，也是我们写得最好的博文之一： https://openai.com/index/gpt-5-6/ OpenAI 模型发布推荐理由： Altman 很少用「有史以来最好」这种话来形容自己的产品，GPT-5.6 大概率是又一次代际跃迁，真正值得关注的是博客里有没有藏着成本或能力的质变信号。 01:12 OpenAI：官网动态（RSS · 排除企业/客户案例）精选 80 OpenAI 推出 ChatGPT Work：可跨应用自主工作的 AI 智能体 OpenAI 发布 ChatGPT Work，一个能跨应用和文件收集信息、将复杂项目分解为小步骤独立完成并持续工作数小时的 AI 智能体。它内置 Codex 技术，目前每周超 500 万用户使用 Codex，其中超 100 万用于非软件开发场景。ChatGPT Work 由今天同步推出的最新前沿模型 GPT‑5.6 驱动，具备多步骤推理和按模板生成材料的能力。该功能今天起面向 Pro、Enterp

智能体 OpenAI 推理模型发布 Anthropic 安全/对齐行业动态政策/监管具身智能

AI HOT · 2026-07-10 01:13

诉讼：男子使用Grok制作7000张继女色情图像后自杀

04:18 Ars Technica：AI（RSS）精选 72 一男子使用Grok生成7000张继女儿童性虐待材料（CSAM）后自杀。更多年轻女孩起诉X平台，指控其涉及Grok生成CSAM，并包庇儿童性犯罪者。 xAI 安全/对齐行业动态推荐理由：这起诉讼把 Grok 的内容审核问题直接推到了刑事犯罪层面，普通人看到的是猎奇，从业者该读的是'生成式 AI 的滥用边界到底怎么管'，这个判例可能影响未来所有模型的安全设计。

xAI 安全/对齐行业动态

AI HOT · 2026-07-10 01:13

OpenAI发布政府与国家安全合作伙伴关系方针

04:38 OpenAI：官网动态（RSS · 排除企业/客户案例）精选 58 OpenAI近日公布国家安全原则，阐明在政府及国家安全领域部署前沿AI系统的方针。原则强调在保护公民、防御关键基础设施、提供公共服务及应对新兴威胁（网络防御和生物安全）中发挥AI优势，同时确保民主问责、人类判断和法治。过去一个月，OpenAI通过Daybreak网络防御计划与澳大利亚、加拿大、日本、韩国、法国、德国、波兰、荷兰及欧盟ENISA等机构建立网络安全信任访问合作，并与英国政府开展网络安全测试评估。上月，OpenAI向部分美国政府及盟友合作伙伴开放GPT‑Rosalind模型用于公共卫生和生物防御。原则适用于现有及未来合作，包括与Department of War的协议，明确禁止大规模国内监控、自主武器系统及高风险自动化决策。OpenAI支持立法对高风险军事用途（如国内监控、自主武器）建立保障措施。 OpenAI 安全/对齐行业动态部署/工程推荐理由： OpenAI 首次公开发布国家安全合作原则，同时宣布与多国建立网络和生物防御伙伴关系。我觉得这是头部 AI 公司在军事合作上的一次主动透明化尝试，值得看看他们如何设限。

OpenAI 安全/对齐行业动态部署/工程

AI HOT · 2026-07-10 01:13

Seedream 5.0 Pro 现已登陆 Runway。可通过提示词或参考图生成高细节图像，图像内文字清晰可读，支持多达14种语言。立即点击下方链接尝试。

06:22 Runway @ runwayml 精选 69 产品更新图像生成多模态推荐理由： Seedream 5.0 Pro 的集成让 Runway 的图像生成多了一个强力选择，14 种语言的可读文字生成是实用亮点，做多语言海报的设计师可以试试。

产品更新图像生成多模态

AI HOT · 2026-07-10 01:13

利润超10亿美元、ARR剑指千亿，Anthropic抢先OpenAI冲击IPO

07:16 IT之家（RSS）精选 73 Anthropic今年第三季度利润预计超10亿美元，已于6月1日秘密提交IPO申请，若成功将成为规模最大AI实验室IPO。其与OpenAI的年度经常性收入合计接近1000亿美元。凭借Claude Code在软件开发领域的快速普及，Anthropic在2026年实现AI模型盈利变现，成为B2B市场领跑者。SemiAnalysis报告认为其商业模式优越，若持续良好执行，市值可能触及6万亿美元。 Anthropic 行业动态推荐理由： Anthropic抢先提交IPO，利润超10亿美元，在OpenAI推迟上市的档口，这一步会让整个AI赛道的资本竞赛明显提速，投资人该坐不住了。

Anthropic 行业动态

AI HOT · 2026-07-10 01:13

面向AI模型双重用途知识的"开关"：Anthropic与AE Studio提出GRAM方法

07:27 Anthropic：Research（发表成果 · 网页）精选 68 Anthropic与AE Studio联合提出梯度路由辅助模块（GRAM）方法，通过在Transformer每层添加可移除的神经元模块，使模型在训练时将病毒学、网络安全、核物理、专业编程语言等双重用途知识仅路由到对应模块，而非扩散至全局。训练后删除模块即可消除该能力，保留则供可信部署使用。实验在合成数据、真实数据及50M到5B参数模型上测试，GRAM效果与数据过滤相当，移除模块不降低通用性能，且比事后“遗忘”技术更难恢复。该研究为平衡双重用途知识的安全访问与有益使用提供了更鲁棒的方案。 Anthropic 安全/对齐数据/训练推荐理由：这是Anthropic在模型安全对齐上的一个新尝试，提出可拆卸模块来精细控制有毒知识，同时保留一般性能。方法还未上Claude，但实验结果表明这条路可能比简单的拒绝训练更鲁棒。

Anthropic 安全/对齐数据/训练

AI HOT · 2026-07-10 00:00

推出 Grok 4.5

01:58 Cursor Blog 精选 80 Cursor 与 SpaceXAI 联合训练了混合专家模型 Grok 4.5，在数万亿 tokens 的 Cursor 用户交互数据上训练，并通过强化学习解决软件工程、数据科学、金融、法律等领域的困难问题。基础版定价 $2/M 输入 tokens、$6/M 输出 tokens，快速版 $4/M 输入 tokens、$18/M 输出 tokens。即日起在 Cursor 桌面、网页、iOS、CLI 及 SDK 中可用，个人和团队计划首周使用量翻倍。Grok 4.5 与 Composer 2.5 为不同权重类别，两者将继续支持。推理模型发布编码关联讨论 8 条 X：OpenRouter (@OpenRouter) X：Michael Truell (@mntruell) xAI：News（网页） The Decoder：AI News（RSS） IT之家（RSS） MarkTechPost（RSS） X：Berry Xia (@berryxia) X：Elon Musk (@elonmusk, xAI) 推荐理由： Cursor 联合 SpaceXAI 发布 Grok 4.5，这是他们第一款跳出代码场景的通用模型，对于 Cursor 用户意味着日常大部分文字工作都能直接在编辑器里完成，第一周还双倍用量，值得试一下。

推理模型发布编码

AI HOT · 2026-07-10 00:00

OpenAI 审计 SWE-Bench Pro 发现约 30% 的评测任务存在缺陷

04:08 OpenAI：官网动态（RSS · 排除企业/客户案例）精选 70 OpenAI 对编码评测基准 SWE-Bench Pro 进行详细审计，发现约 30% 的任务存在缺陷。在 731 个任务的公开子集中，前沿模型通过率在八个月内从 23.3% 提升至 80.3%，但数据质量检查显示大量任务存在测试过于严格、提示词描述不足、测试覆盖不全或误导性提示等问题。OpenAI 建议模型开发者仔细审视评测结果，并指出 AI 智能体在规模化数据质量检查中日益增长的实用性。 OpenAI 编码论文/研究评测/基准关联讨论 2 条 X：OpenAI (@OpenAI) The Decoder：AI News（RSS）推荐理由： OpenAI 自己审计了 SWE-Bench Pro，发现三成任务有缺陷，这个基准给出来的分数可能要打问号，做模型评测和选型的人该认真看看。

OpenAI 编码论文/研究评测/基准

AI HOT · 2026-07-09 22:41

新功能：聊天室一键ZDR（零数据保留）在完全隐私保护下横向对比模型：https://openrouter.ai/chat

23:25 OpenRouter @ OpenRouter 精选 65 产品更新推荐理由： OpenRouter 聊天室新加了一键 ZDR，对比模型时请求数据不存储，注重隐私的开发者会开心，但毕竟只是个开关，算不上大新闻。

产品更新