AI and technology watch

AI 新闻

聚合过去 24 小时 AI 与开发者生态动态，并提供来源链接以便深入阅读。

---

AI HOT · 2026-07-08 06:00

DynaMiCS：带性能约束的大语言模型动态混合微调

23:10 Apple Machine Learning Research（RSS）精选 55 DynaMiCS是一种动态混合优化器，将多领域微调建模为带性能约束的优化问题。它通过短领域特定探测运行估计跨领域效应斜率矩阵，再基于概率单纯形优化计算混合权重，在提升目标领域性能的同时将约束领域损失维持在参考水平以下。实验表明，DynaMiCS相比固定混合基线取得更强的目标领域提升和约束满足，且计算成本更低，无需参考模型、逐样本评分或手动调节混合权重。数据/训练论文/研究推荐理由：苹果这篇论文做了一件不太起眼但有用的事——让模型在学新领域时自动平衡旧能力，不用手动调混合权重，对需要多任务微调又怕遗忘的团队是个小进步，不过算不上范式级突破。

数据/训练论文/研究

AI HOT · 2026-07-08 05:06

Elvis Saravia 通过 HITL 和 DialAgent 提升 agentic loops 可靠性

23:09 elvis @ omarsar0 精选 77 Elvis Saravia 介绍使用 human-in-the-loop（HITL）来提升 agentic loops 的可靠性。他所有 Claude 和 Codex agent 会话都通过 @DialAgent MCP 服务器，该服务器为 agent 提供专属号码，支持语音、SMS、iMessage 作为原生工具。当循环/自动化处理 PR 或新功能时，agent 会通过简短电话将决策升级给人类，尤其适合在路上或离开电脑时。用户可粘贴指令让 agent 拨打电话测试。DialAgent 提供 $5 免费额度：http://getdial.ai 智能体 MCP/工具教程/实践推荐理由：给AI Agent装电话号直接打电话请示，这个实操方案能大幅减少循环失败，Claude Code和Codex用户有$5免费额度马上可试，出差党尤其友好。

智能体 MCP/工具教程/实践

AI HOT · 2026-07-08 03:54

Meta 在 Meta AI 应用中推出 Muse Image，这是 MSL 首个图像生成模型。该模型同时登陆 WhatsApp 和 Instagram，后续将扩展至 Messenger 和 Facebook。Muse Image 利用高级推理理解复杂提示，能将多张照片无缝融合生成高质量图像，支持预设、在提示中引用图片以及直接编辑。结合引用推文，Muse Image 具备智能体特性：与 Muse Spark 配对，先推理用户提示、搜索网络并规划，再生成图像，旨在首次尝试即得到用户期望结果。

03:21 🚨 AI News | TestingCatalog @ testingcatalog 精选 78 Alexandr Wang : 1/ releasing muse image today - the first image generation model from MSL. it's agentic: pairs with muse spark to reason... Meta 图像生成推理模型发布推荐理由： Meta 把图像生成做成一个原生功能塞进了全家桶，agentic 推理让 prompt 理解上了一个台阶，这对普通用户的创作渗透可能比独立工具更快。 03:18 Hugging Face：Blog（RSS）精选 67 Hugging Face Storage 成为 SkyPilot 一级后端：零出站费跨云存储 Hugging Face Storage 现为 SkyPilot 的一级后端。用户通过 hf:// URL 和现有 HFTOKEN 即可将 Hugging Face Bucket（读写）或模型/数据集/Space 仓库（只读）挂载到 SkyPilot 任务中，支持 MOUNT（FUSE 懒加载）或 COPY 模式。SkyPilot 可将任务调度到 20+ 云、Kubernetes、Slurm 及本地集群的任意可用 GPU 上。Hugging Face 不收取出站及 CDN 费用，故跨云读取数据无额外成本。存储价格 $12–18/TB/月，低于 AWS S3 加出站费。Bucket 基于 Xet，增量检查点和模型变体仅存储和传输改动部分。 Hugging Face 产品更新开源生态部署/工程推荐理由： Hugging Face 和 SkyPilot 把存储和算力真正解耦了，跨云读取模型零出口费，用过 SkyPilot 的团队可以立刻省下那块 egress 账单。 03:07 The Decoder：AI News（RSS）精选 71 微软为降成本在Copilot中用自研MAI模型替换OpenAI和Anthropic模型微软正用自研MAI模型替换Copilot产品中的OpenAI和Anthropic模型以降低支出。MAI模型已在Excel和Outlook中每周处理数万次请求，但占比仍小。Build大会上发布推理模型MAI-Thinking 1，声称编码媲美Sonnet 4.6和Opus 4.6，但基准测试大幅落后，仅与DeepSeek V3.2相当。AI负责人承认目标是削减并消除对Anthropic的支出。CEO暗示未来可能按用量计费，MAI为默认，第三方模型付费附加。微软称MAI使用干净商业许可数据，实际基于Common Crawl。 Microsoft 现象/趋势行业动态推荐理由：微软正悄悄把Copi

Meta 图像生成推理模型发布 Hugging Face 产品更新开源生态部署/工程 Microsoft 现象/趋势行业动态智能体编码 Google 多模态 Anthropic OpenAI 大佬观点数据/训练 MCP/工具开源/仓库评测/基准

AI HOT · 2026-07-08 02:34

统一音频智能模型 Nemotron-Labs-Audex-30B-A3B 发布

21:18 HuggingFace Daily Papers（社区热门论文）精选 80 Nemotron-Labs-Audex-30B-A3B（Audex）是基于Nemotron-Cascade-2-30B-A3B的MoE大语言模型，采用单一Transformer解码器统一处理文本与量化音频token。训练使用157.4B音频token和320.5B文本token，经多阶段监督训练、文本Cascade RL和多域on-policy蒸馏优化。在音频理解、语音识别/翻译、文本转语音、音频生成及语音到语音生成任务上达SOTA，同时保持原文本LLM的推理、对齐等能力几乎无退化。模型权重已开源。多模态论文/研究语音推荐理由：多模态LLM常捡芝麻丢西瓜，Audex难得做到音频全面增强而文本智能不退化。开源模型让语音产品人可以立刻评估，不是研究Demo。

多模态论文/研究语音

AI HOT · 2026-07-08 02:34

这是一个关键原因，我不期望前沿开放权重模型的流动会无限期持续，甚至不会持续更长时间。

22:21 Ethan Mollick @ emollick 精选 79 开源生态政策/监管推荐理由：路透社独家消息指向中国可能限制顶级AI模型出口，我认为这是开源生态的一次大地震，中国模型的全球扩散或将骤然收窄。

开源生态政策/监管

AI HOT · 2026-07-08 02:34

在 Claude Code 中选择 Claude 模型与努力级别

22:21 Claude：Blog（网页）精选 65 Claude Code 提供模型（model）和努力级别（effort）两种设置。模型选择决定能力范围，更大模型（如 Claude Fable 5）在基准上优于 Claude Sonnet。努力级别不单是思考时间，还控制读取文件数、验证步骤及多步任务的推进深度。较高努力下 Claude 会自行读取文件、运行测试并复核；较低努力则更倾向请求用户提供上下文。若 Claude 已掌握上下文但仍出错，应换更强大模型；若因跳读文件或未运行测试而出错，则应提高努力级别。 Anthropic 推理教程/实践编码推荐理由：如果你在用 Claude Code，这篇官方指南说清楚了 effort 和模型选择的真实含义，尤其是“出错了先判断是不懂还是没尽力”那条，看完能省掉很多无谓的换模型。

Anthropic 推理教程/实践编码

AI HOT · 2026-07-08 01:14

LLM-as-a-Verifier：一种通用验证框架

13:17 HuggingFace Daily Papers（社区热门论文）精选 73 LLM-as-a-Verifier 是一种无需额外训练的通用验证框架，通过计算评分 token logits 分布的期望生成连续分数，实现细粒度反馈。该框架在 Terminal-Bench V2（86.5%）、SWE-Bench Verified（78.2%）、RoboRewardBench（87.4%）和 MedAgentBench（73.3%）上取得 SOTA 性能。其细粒度信号可用于 Claude Code 扩展，帮助开发者监控和改进智能体系统，也可为强化学习（如 SAC、GRPO）提供密集反馈，提升机器人学和数学推理基准的样本效率。智能体 MCP/工具推理论文/研究推荐理由：把验证当作新的缩放轴，这个思路很扎实，尤其直接给 Claude Code 搭了扩展。做 agent 系统的开发者现在可以试试把评估模块换成连续概率打分，也许比离散判断有效。

智能体 MCP/工具推理论文/研究

AI HOT · 2026-07-08 01:14

Grok Imagine 更新。请更新你的 Grok 应用！15 秒 Imagine 视频现已可用，质量令人难以置信。

14:50 Elon Musk @ elonmusk 精选 72 tetsuo : Update your Grok app! 15 Second Imagine videos now available and the quality is incredible. xAI 产品更新视频推荐理由： Grok Imagine 加入视频生成，xAI 在多模态上再进一步。15 秒视频质量据说惊艳，但推文缺细节，想试的可直接更新 App。

xAI 产品更新视频

AI HOT · 2026-07-08 01:14

在网络不稳定的地区，小型AI模型正逐渐普及

15:10 Hacker News 热门（buzzing.cc 中文翻译）精选 70 2019年，Adebayo Alonge因服务器远在美国致RxScanner单次扫描超5分钟，工程师2小时内将AI模型缩小至可在Android手机本地运行，此后RxScanner能在无宽带、缺电地区验药。小AI模型参数通常至多几十亿，可在手机或Raspberry Pi上运行，功耗仅数瓦。类似案例包括印度腰果病害检测无人机、乌拉圭蚂蚁入侵识别、疟蚊检测及巴西基于Arduino的心电图设备。世界银行报告显示，全球最穷国家仅0.7%互联网用户用过ChatGPT，发达国家达四分之一；行长认为小AI是为缺乏算力与电力的地区提供生命救助服务的关键。现象/趋势端侧推荐理由：这篇IEEE特写把AI的镜头从硅谷转向了没有宽带的地方，用假药检测、无人机农场等案例讲清楚了一个被忽视的真相：对多数世界而言，能跑在手机上的小型模型才是真正的AI。

现象/趋势端侧

AI HOT · 2026-07-08 01:14

美国首批自主地面车辆在乌克兰参战

17:20 TechCrunch：AI（RSS）精选 70 美国自动驾驶车辆公司 Forterra 宣布，过去九个月已向乌克兰战场部署超过 100 辆基于 Polaris ATV 的 Lancer 自主地面车辆。这些汽油动力车辆可携带 750 公斤货物，加装 Starlink 天线实现远程操控，已执行 1100 多次任务，行驶 2500 英里，运送 777,440 磅物资，完成 52 次伤员撤离。目前车辆主要采用远程操作，因自主系统尚无法实时识别并应对敌方威胁。Forterra 已融资超 5 亿美元，正将经典机器人方法与生成式 AI 结合以提升自主能力。美军专家认为地面自主技术已具实战价值。具身智能行业动态部署/工程推荐理由：这是首次有美国自主地面车辆在实战中长期部署的详细报道，做军事 AI 的人可以认真读，但对多数从业者来说只是猎奇。

具身智能行业动态部署/工程

AI HOT · 2026-07-08 00:00

Gemini Spark 现在可以智能追踪话题并实时反应事件。试试下一篇帖子中的提示词，在你支持的球队比赛结束后，获取定制化的比赛分析邮件。

08:17 Google Gemini @ GeminiApp 精选 69 Google 产品更新搜索推荐理由： Gemini Spark 加入实时话题跟踪和事件响应，相当于给 AI 助手装上了耳朵。做信息监测和体育内容自动化的可以直接抄作业。

Google 产品更新搜索

AI HOT · 2026-07-08 00:00

Sysdig 澄清首例"智能体勒索软件"JadePuffer：AI 执行攻击但人类仍负责设置与选目标

08:19 TechCrunch：AI（RSS）精选 72 云安全公司 Sysdig 记录了首例“智能体勒索软件”攻击 JadePuffer，AI 智能体独立完成入侵、窃取凭证、横向移动、加密超 1,300 条配置记录并撰写赎金信，还能在 31 秒内修复失败登录并以自然语言注释解释推理过程。但 Sysdig 高级威胁研究总监 Michael Clark 澄清，人类仍负责设置攻击基础设施、选择受害目标、提供通过此前入侵获取的数据库凭证。Sysdig 未能识别驱动该智能体的具体模型；AI 智能体在攻击中窃取了 OpenAI、Anthropic、DeepSeek 和 Gemini 的 API 密钥，Clark 表示这些密钥属于“战利品”而非驱动模型。微软研究员 Geoff McDonald 推测模型为移除安全训练的开源权重模型。智能体行业动态推荐理由：号称首例AI全自主勒索攻击其实仍需人类‘选目标’，关键澄清浇灭了一些恐慌，但代理化攻击的廉价复制性仍是真难题。

智能体行业动态

AI HOT · 2026-07-08 00:00

字节 Seed 发布 EdgeBench：衡量真实世界环境学习，发现新 Scaling Law

11:48 字节 Seed：Research Feed（网页内嵌数据）精选 55 字节 Seed 发布超长程评测集 EdgeBench，含 134 个真实任务（覆盖六大领域），每个任务支持 Agent 持续工作至少 12 小时。基于约 38000 小时交互数据，发现 Agent 环境学习表现遵循高精度 log-sigmoid 曲线（平均 R²=0.998）；自 2025 年 9 月至 2026 年 5 月，前沿模型学习速度约每三个月翻一倍。EdgeBench 已开源 51 个任务及完整评测框架。智能体数据/训练论文/研究关联讨论 1 条字节 Seed：Research Papers（网页内嵌数据）推荐理由：字节此基准首次量化了长程环境学习规律，log-sigmoid 曲线拟合精度极高，学习速度每三个月翻倍的趋势对 Agent 研究有方向性意义，但尚属学术探索。

智能体数据/训练论文/研究

AI HOT · 2026-07-08 00:00

蚂蚁 inclusionAI 开源多智能体协作基础设施 Avernet V0.1

12:19 蚂蚁 inclusionAI：GitHub 新仓库精选 72 蚂蚁 inclusionAI 开源的多智能体协作基础设施 Avernet V0.1 正式发布。该项目聚焦 Agent 注册、发现、邀请等协作层问题，不替代 Agent 自身推理能力。通过群组、会话和共享上下文构建多方共识，支持自由聊天、领导-跟随等协作模式，并利用协作反馈形成观察、评估到复用、优化的自动进化闭环。支持 OpenClaw、自定义 Agent、第三方 Agent 引擎及现有 bot 平台等异构生态，提供 Docker 与本地两种快速部署路径。智能体开源/仓库部署/工程推荐理由：蚂蚁开源的Avernet把多agent协作的发现、连接、共识和可追踪执行做成基础设施，做agent应用的团队可以拿来即用，虽早期但方向对。

智能体开源/仓库部署/工程

AI HOT · 2026-07-08 00:00

MIRA是一个可玩、多人的世界模型，被形容为"火箭联盟的梦"。它基于10k小时公开机器人收集的数据训练，学习四玩家游戏动态，根据按键实时生成画面，帧率达20 FPS。模型由General Intuition与Kyutai Labs联合构建，Epic Games提供协作。Ethan Mollick称从最早的扩散DOOM玩过来，多人20 FPS效果出色。演示、技术报告及开源代码已公开，在ICML Booth 111现场展示。

12:50 Ethan Mollick @ emollick 精选 75 General Intuition : Introducing MIRA. A playable, multiplayer world model. A dream of Rocket League. Trained on 10k hours of data collected ... 产品更新开源生态视频推荐理由：世界模型终于跑通了实时多人游戏，20 FPS 的 Rocket League 梦境能直接上手玩，代码和报告都开源，做游戏和交互的值得试试。

产品更新开源生态视频

AI HOT · 2026-07-07 22:40

2026年科技公司AI裁员名单：Microsoft、Oracle、GitLab等十家公司裁减数千岗位

02:49 TechCrunch：AI（RSS）精选 78 2026年以来，多家科技公司以AI为由大规模裁员。Microsoft裁减约4800岗位（2.1%），Oracle裁减21000人（13%），GitLab裁减350人（14%）以投资AI基础设施，Google Cloud持续裁减员工（外界估计1500-3000+工程师），Intuit裁减3000人（17%），Meta裁减8000人（10%）并转岗7000人至AI，Cisco裁减近4000人（5%），Cloudflare裁减1100人（20%），GM裁减500-600 IT岗位，Coinbase裁减700人（14%）。据Layoffs.fyi统计，2026年累计已裁约12万个技术岗位。 Google Microsoft 行业动态推荐理由：这不是简单的裁员名单，而是AI正在改写工作方式的证据链，每一条都让“AI不会导致失业”的安慰显得苍白。职场人该面对现实了。

Google Microsoft 行业动态

AI HOT · 2026-07-07 22:40

Claude Code 团队详解四种智能体循环类型

03:13 ClaudeDevs @ ClaudeDevs 精选 70 Claude Code 团队将“设计循环”定义为智能体重复工作直到满足停止条件，划分四种类型：1）回合循环——手动提示触发，Claude 自判完成，适合短任务，可通过 SKILL.md 提升验证；2）目标循环—— /goal 手动触发，达成目标或达最大轮数停止，需确定性完成标准（如测试通过数）；3）时间循环—— /loop 和 /schedule 按间隔触发，适合同步消息、检查 PR 等重复任务，可云端运行；4）主动循环——事件或计划触发，无人实时参与，每个子任务独立退出。建议从最简单方案开始，选择性使用复杂循环。智能体 Anthropic 教程/实践编码关联讨论 1 条 X：邵猛 (@shao__meng) 推荐理由： Claude Code 团队官方的循环设计指南，把 `/goal`、`/loop` 这些原语讲得很清楚，想从单次提示转向自主代理工作流的开发者可以直接照着搭。

智能体 Anthropic 教程/实践编码

AI HOT · 2026-07-07 22:40

xAI 为 Grok Voice 新增 21 个旗舰语音

06:43 xAI：News（网页）精选 68 xAI 发布 21 个新旗舰语音，加入原有的 5 个语音。所有新语音均支持多语言，已在实时 Voice Agent API、Text to Speech API 及新推出的 Grok Voice Agent Builder 中可用。每个语音针对客服、角色、解说、广告、教育等场景定制，支持通过 [pause] 等语音标签控制表达。原始 5 个语音（Ara、Eve、Leo、Rex、Sal）经重训练后，节奏、措辞和重音的自然度提升。所有语音原生支持 Grok Voice 的 25 种以上语言。 xAI 产品更新语音推荐理由： Grok 一口气放出21种多语言语音，对做语音 agent 的团队是个弹药库更新，但影响的半径基本止于 xAI 生态内部。

xAI 产品更新语音

AI HOT · 2026-07-07 22:40

Claude Code v2.1.202 发布

07:09 Claude Code：GitHub Releases（RSS）精选 67 Claude Code v2.1.202 在 /config 中新增“Dynamic workflow size”设置，可控制动态工作流的 agent 数量规模（小/中/大），作为指导性建议而非硬性上限。工作流派生的 agent 现在会发射 workflow.run_id 和 workflow.name 的 OpenTelemetry 属性。修复了 mTLS 握手失败、远程控制发送命令失败、移动端发送无说明图片被静默丢弃、语音听写在麦克风故障时无限重试（改为暂停输入）、重载已有技能导致重复指令等问题。改进了工作流 agent 列表布局，MCP 错误消息更清晰。 /review <pr> 恢复为快速单次审查，多 agent 审查请使用 /code-review 。智能体 Anthropic 产品更新推荐理由：这波修复让远程控制和工作流终于稳了，以前被 silent drop 的文件和无线重试的 bug 都治好了，Claude Code 重度用户升级后体验会好一个档次。

智能体 Anthropic 产品更新

AI HOT · 2026-07-07 22:40

OfficeCLI：为AI智能体设计的开源Office套件

07:10 Hacker News 热门（buzzing.cc 中文翻译）精选 75 OfficeCLI是全球首个专为AI智能体设计的开源Office套件，以单二进制文件运行，无需安装Office或任何依赖。它内置HTML渲染引擎，可将.docx/.xlsx/.pptx转换为HTML或PNG，形成“渲染→查看→修复”的视觉闭环，使AI代理能自主创建、读取和修改Word、Excel、PowerPoint文档。支持公式、图表、条件格式、RTL布局、修订追踪、表格、数据透视表等复杂功能。提供CLI命令和基于自然语言的桌面应用AionUi，并可一键安装到Claude Code、Cursor、Windsurf、GitHub Copilot等AI编码工具中。智能体 MCP/工具开源/仓库推荐理由：我觉得这个工具把 AI 代理操作 Office 的最后一公里走通了，特别是内置渲染引擎让代理能‘看见’文档布局，而不是盲猜 DOM，对自动化报表和批处理文档的团队很有价值。

智能体 MCP/工具开源/仓库