AI and technology watch

AI 新闻

聚合过去 24 小时 AI 与开发者生态动态,并提供来源链接以便深入阅读。

---
AI HOT ·

AI 的黑色星期五

00:34 Gary Marcus:The Road to AI We Can Trust(RSS) 精选 69 Gary Marcus 在文章中分享了对 AI 领域刚刚发生事件的看法,表达了对当前 AI 发展方向的思考。 大佬观点 安全/对齐 推荐理由: Gary Marcus趁AI圈遭遇“黑周五”立刻开炮,标题就透着幸灾乐祸的犀利,不管是否同意他的立场,这篇复盘都会让你重新审视那些被狂热掩盖的信任裂缝。

大佬观点 安全/对齐
AI HOT ·

GitHub 开源 Spec Kit 工具包,用产品规范引导 AI 编码

21:30 Rohan Paul @ rohanpaul_ai 精选 80 GitHub 发布开源工具包 Spec Kit,旨在解决 "vibe coding" 的最大弱点——AI 常在规则未明确时就开始编码。它把流程从 "让 AI 直接构建" 改为 "先写产品规范,再让 AI 根据规范实现"。当前 AI 编码模式常因松散提示直接跳入代码,导致需求薄弱、边界遗漏和反复返工。Spec Kit 推动反向流程:先定义产品功能,再澄清差距、制订技术计划、分解任务,最后让 agent 执行。规范成为可执行的开发合约,支持 Copilot、Claude Code、Codex、Gemini、Cursor、Qwen 等 30+ agent 集成。项目已获 109K+ 星标。 智能体 GitHub MCP/工具 产品更新 推荐理由: GitHub亲自下场推spec-driven开发,把vibe coding的随意感压回“先写规约再写代码”的老派流程,但这次规约是给AI读的,做coding agent的团队应该认真研究一下。

智能体 GitHub MCP/工具 产品更新
AI HOT ·

Job Searcher

23:48 Hugging Face:Blog(RSS) 精选 65 Hugging Face 发布 Job Searcher,一个基于 AI 的求职搜索工具。用户上传简历并设定偏好后,系统使用教师模型 DeepSeek V4 Pro 生成 LinkedIn 搜索查询,通过 JobSpy 抓取职位,再对学生模型 Qwen3-8B(8B 参数)进行 LoRA 微调,对每个职位从技能匹配、经验相关性、教育背景、行业领域契合度和资历对齐五个维度给出评分和推理。训练在 Modal 平台单张 A100 上完成。推理部署于 Hugging Face ZeroGPU Space,使用 llama.cpp 实现流式输出。项目开源。 智能体 Hugging Face 教程/实践 数据/训练 推荐理由: 这个 hackathon 项目把教师蒸馏和 LoRA 微调 8B 模型的流程全部开源在 HF 上,做模型定制和部署的开发者能直接抄作业,尤其是推理部署踩的坑(ZeroGPU 上下文重用)很实用。 21:30 Rohan Paul @ rohanpaul_ai 精选 80 GitHub 开源 Spec Kit 工具包,用产品规范引导 AI 编码 GitHub 发布开源工具包 Spec Kit,旨在解决 "vibe coding" 的最大弱点——AI 常在规则未明确时就开始编码。它把流程从 "让 AI 直接构建" 改为 "先写产品规范,再让 AI 根据规范实现"。当前 AI 编码模式常因松散提示直接跳入代码,导致需求薄弱、边界遗漏和反复返工。Spec Kit 推动反向流程:先定义产品功能,再澄清差距、制订技术计划、分解任务,最后让 agent 执行。规范成为可执行的开发合约,支持 Copilot、Claude Code、Codex、Gemini、Cursor、Qwen 等 30+ agent 集成。项目已获 109K+ 星标。 智能体 GitHub MCP/工具 产品更新 推荐理由: GitHub亲自下场推spec-driven开发,把vibe coding的随意感压回“先写规约再写代码”的老派流程,但这次规约是给AI读的,做coding agent的团队应该认真研究一下。 21:17 IT之家(RSS) 精选 70 OpenCV 5 发布:升级全新 DNN 引擎、原生支持大模型 OpenCV 5 正式发布,采用基于图的 DNN 引擎,ONNX 算子覆盖率从 4.x 的不到 23% 提升至超 80%,原生支持 Transformer、视觉语言模型(VLM)和大语言模型(LLM)。其他更新包括:更好的 Python 集成与命名参数、更紧凑核心代码、清晰硬件加速层、原生 FP16/BF16、规范化 0D/1D 张量、扩展 3D 视觉及现代化文档。该库 GitHub 拥有超 86,00

智能体 Hugging Face 教程/实践 数据/训练 GitHub MCP/工具 产品更新 多模态 开源/仓库 推理 部署/工程 图像生成 论文/研究 Anthropic OpenAI 评测/基准 行业动态 Google xAI 检索增强 Microsoft 安全/对齐 政策/监管 现象/趋势 编码 模型发布 大佬观点 端侧
AI HOT ·

OpenCV 5 发布:升级全新 DNN 引擎、原生支持大模型

21:17 IT之家(RSS) 精选 70 OpenCV 5 正式发布,采用基于图的 DNN 引擎,ONNX 算子覆盖率从 4.x 的不到 23% 提升至超 80%,原生支持 Transformer、视觉语言模型(VLM)和大语言模型(LLM)。其他更新包括:更好的 Python 集成与命名参数、更紧凑核心代码、清晰硬件加速层、原生 FP16/BF16、规范化 0D/1D 张量、扩展 3D 视觉及现代化文档。该库 GitHub 拥有超 86,000 stars,每日安装量超一百万次。 多模态 开源/仓库 推理 部署/工程 推荐理由: OpenCV 5 是一次架构级大更新,DNN 引擎重写、ONNX 覆盖率从 23% 跳到 80%,原生支持大模型推理,做模型部署的该关注了。

多模态 开源/仓库 推理 部署/工程
AI HOT ·

Persona Atlas:Hugging Face 上的开源人物思维映射工具

19:48 Hugging Face:Blog(RSS) 精选 58 Persona Atlas 是一个运行在 Hugging Face Inference Providers 上的开源项目。它通过工具调用代理执行真实网络搜索,生成公众人物的资料、事实清单和风格假设,然后让该人物回答十个关于身份、伦理等开放式问题。每个回答被转化为嵌入向量,从而在向量空间中对不同人物进行距离比较,并基于十个特质锚点绘制热力图。前端采用 Gradio,提供研究、比较和检查代理完整追溯三个标签页,预设多个人物角色,无需 token 即可直接体验。 智能体 Hugging Face 开源/仓库 推荐理由: 把苏格拉底和乔布斯放在一起比思维方式,这个实验更像智力玩具,但背后用小模型跑 agent 搜索做嵌入比较的流程,做角色扮演的人可以学研究方法。

智能体 Hugging Face 开源/仓库
AI HOT ·

被选为 #CVPR2026 最佳论文决赛作品:来自 NVIDIA Research 的 PixelDiT 在大多数图像生成模型中,预训练的自编码器会在任何扩散发生前压缩图像,导致质量损失在整个流程中累积。 PixelDiT,即像素扩散变换器,完全去掉了这一步骤。它是一个单阶段模型,直接在像素空间中端到端地学习扩散过程。

07:13 NVIDIA AI @ NVIDIAAI 精选 68 图像生成 论文/研究 推荐理由: CVPR 最佳论文 finalist,NVIDIA 用 PixelDiT 直接把自编码器砍掉,端到端像素空间扩散,如果效果稳定,图像生成的质量损失会从源头解决。

图像生成 论文/研究
AI HOT ·

用Qwen2.5-3B构建多智能体经济体:工程报告

06:47 Hugging Face:Blog(RSS) 精选 74 开发者用Qwen2.5-3B构建了五人森林生物多智能体经济体,每个智能体独立运行,通过vLLM部署在Modal,以Gradio为交互窗口。3B模型在100%调用中输出有效JSON,但经济判断能力弱。通过设计稀缺性(食物品种限制、易腐坏、冬季燃料危机)和优化提示词(禁止买入自产物品、给出示例)提升决策质量。15轮模拟中,蜜价从10跌至3、柴价从4涨至7、财富基尼系数从0.14扩至0.38。项目展示了小模型可靠格式化与不可靠推理之间的工程填补。 智能体 Hugging Face 教程/实践 部署/工程 推荐理由: 我觉得这是近期最诚实的小模型工程复盘,把为什么不换大模型、怎么靠提示修正推理、怎样设计系统稀缺性讲透了,比看十篇论文有实操价值。

智能体 Hugging Face 教程/实践 部署/工程
AI HOT ·

Apollo 敲定 350 亿美元债务融资,为 Anthropic 采购 AI 芯片

05:31 Bloomberg:Technology(RSS) 精选 77 Apollo Global Management 和 Blackstone 已为 Anthropic 敲定 350 亿美元融资方案,用于扩充其 AI 基础设施。这是人工智能竞赛中最新的一笔巨额交易。 Anthropic 行业动态 部署/工程 推荐理由: 350亿美元债权的规模说明AI军备竞赛远未降温,Anthropic这一波加码直接把「算力即权力」写在了资产负债表上。

Anthropic 行业动态 部署/工程
AI HOT ·

Arena 发布真实世界 AI 智能体排行榜 Agent Arena

06:29 Rohan Paul @ rohanpaul_ai 精选 76 Arena 推出基于真实用户任务的智能体排行榜,评估模型在代码编写、应用构建、文档分析等工作中的表现,而非孤立基准。排行榜基于30万+任务、200万+工具调用和4000万行代码,综合任务成功、纠正遵从性、错误恢复、用户表扬与抱怨、工具幻觉等信号。前三名:GPT-5.5 High(+10.7%)、Claude Opus 4.7 Thinking(+9.5%)、GPT-5.4 High(+8.9%)。 Arena.ai : Introducing Agent Arena: real-world agentic evals at scale. How do you evaluate agents doing actual work? We measure mil... 智能体 Anthropic OpenAI 评测/基准 推荐理由: Arena 跳出了刷榜逻辑,用真实用户的多轮交互来评估 Agent,这比任何 toy benchmark 都更有说服力,选模型做 Agent 应用的可以把它当新指南。

智能体 Anthropic OpenAI 评测/基准
AI HOT ·

SpaceX 刚刚披露了一份与 Google 的新云服务协议。 Google 将每月向 SpaceX 支付 9.2 亿美元(约合每年 110 亿美元),用于 xAI 数据中心的计算能力。 这再次表明,AI 算力正成为一种战略性商品,就像发射能力或能源一样,而那些能够为庞大的 GPU 集群提供资金、电力、冷却和运营的公司,可能会在其原有业务之外获得巨大的杠杆优势。

04:59 Rohan Paul @ rohanpaul_ai 精选 77 Google xAI 行业动态 部署/工程 关联讨论 2 条 X:Rohan Paul (@rohanpaul_ai) Hacker News 热门(buzzing.cc 中文翻译) 推荐理由: 谷歌每月斥资9.2亿美元租用xAI算力,这已经不只是一份商业合同,而是AI基础设施的定价锚点。算力正在变成战略资源,做云的和做芯片的都该重新估算自己的位置。

Google xAI 行业动态 部署/工程
AI HOT ·

谷歌推出基于 Gemini Enterprise Agent Platform 的 Agentic RAG 框架

04:30 Google Research:Blog(网页) 精选 64 Google Research 与 Google Cloud 合作推出跨语料库检索(Cross-Corpus Retrieval)框架,作为 Gemini Enterprise Agent Platform 的 Agentic RAG。该多智能体工作流将复杂企业查询分解为子任务,通过规划、重写和路由,迭代搜索多个数据源直至获得充分上下文,再生成可靠回答。与标准 RAG 相比,在事实性数据集上准确率最高提升 34%;在多个领域特定内部数据集上也实现了更好的接地与推理准确性。 Google 检索增强 产品更新 推荐理由: 企业级 RAG 的新标杆,多 agent 架构加上‘足够上下文’检查,准确度提升 34%。做知识库问答的产品经理和架构师都应该认真看。

Google 检索增强 产品更新
AI HOT ·

微软Project Mosaic:micro-LED光学互连技术

04:13 Microsoft Research @ MSFTResearch 精选 60 微软Azure CTO Mark Russinovich在Build 2026上介绍Project Mosaic,这是微软剑桥研究院的实验性光学互连技术,采用micro-LED实现低功耗、高速数据传输。高级研究员Kaoutar Benyahya现场演示单个LED调制形成字母,证明概念具备实时响应能力。 Microsoft 论文/研究 部署/工程 推荐理由: 微软研究院展示了个用 micro-LED 做光互联的实验项目,短期对 AI 训练没直接帮助,但低功耗高速传输要是落地,可能会改变数据中心的组网方式。

Microsoft 论文/研究 部署/工程
AI HOT ·

Anthropic:让Claude成为化学家

03:33 Anthropic:Research(发表成果 · 网页) 精选 65 Anthropic与顶尖化学家合作,提升Claude在化学领域的实用性。首个白皮书测试Claude在NMR谱图分析上的表现:在20个化合物上,对比Claude Opus 4.7、Opus 4.6、Sonnet 4.6与ChemDraw、MestReNova的正向预测(从结构预测谱图)和反向结构解析(从实验谱图推断结构)能力。所有化合物选自模型训练截止日期后发布的ChemRxiv预印本,以避免选择偏差。 Anthropic 多模态 论文/研究 评测/基准 关联讨论 2 条 X:Anthropic (@AnthropicAI) X:Rohan Paul (@rohanpaul_ai) 推荐理由: 化学家可能几年后回头看会记起这篇,Claude Opus 4.7 在 NMR 预测上追平了 ChemDraw,还顺手做了反向结构解析——专业软件不干的事,它用更接近人类日常输入的方式做到了。

Anthropic 多模态 论文/研究 评测/基准
AI HOT ·

五角大楼正运营着一个针对拉丁美洲的人工智能宣传机器

03:51 Hacker News 热门(buzzing.cc 中文翻译) 精选 75 据 The Intercept 6月5日报道,美国五角大楼正在运营一个针对拉丁美洲的人工智能宣传机器(AI propaganda mill)。报道指出,该机器利用 AI 技术生成并传播宣传内容,目标为拉丁美洲地区。该消息在 Hacker News 上获得 100 点热度。 安全/对齐 政策/监管 推荐理由: 五角大楼用 AI 生成宣传内容轰炸拉美,The Intercept 挖出了具体操作细节。不是未来预言,而是已经上线的现实操作,搞 AI 治理的人该立刻点开看。

安全/对齐 政策/监管
AI HOT ·

Claude 是否增加了 rsync 中的错误?

03:21 Hacker News 热门(buzzing.cc 中文翻译) 精选 70 一篇 Hacker News 热门帖子(105 分)提出了 Claude 是否导致 rsync 工具中 bug 增加的问题,并附有分析链接。 Anthropic 现象/趋势 编码 推荐理由: 不是给Claude泼脏水,而是用rsync项目真实数据拉警报,AI辅助也许正在增加低级bug,做底层工具的开发者该紧绷这根弦。

Anthropic 现象/趋势 编码
AI HOT ·

与 AI 智能体协作应感觉像与同事协作一样。你应能"与它们交谈"--不仅通过文本聊天,还能一起对着屏幕做手势、实时对话等。

01:50 Michael Truell @ mntruell 精选 80 Cursor : With Design Mode, you can now point, draw, or talk to update your UI. 智能体 产品更新 多模态 编码 关联讨论 1 条 X:宝玉 (@dotey) 推荐理由: Cursor 新加的 Design Mode 让改 UI 像跟同事比划屏幕一样自然,手势、画框、说话都能驱动 agent,AI 编程工具第一次有了‘面对面’的感觉。

智能体 产品更新 多模态 编码
AI HOT ·

Google AI 本周产品更新:Nano Banana 2、Co-Scientist、dreambeans、Gemma 4 等

01:20 Google AI @ GoogleAI 精选 78 Google AI 本周发布多项更新:Nano Banana 2 及 Pro 正式 GA,可通过 Gemini Enterprise Agent Platform、Gemini API 和 Google AI Studio 获取;Co-Scientist 多智能体系统面向科研自动生成优化新假设;Google Labs 推出 dreambeans,根据用户 Google 应用数据每日生成个性化话题集;Gemma 4 12B 统一无编码器多模态模型可完全离线运行于笔记本;Gemma 4 系列及草稿模型引入 QAT 降低内存需求;Google Magenta RealTime 2 开源实时音乐模型,支持 MIDI 键盘、文本提示和手势演奏。 智能体 Google 产品更新 多模态 推荐理由: 周报里藏了个大号:Gemma 4 12B开源多模态且完全离线,开发者今天就能在自己笔记本上跑起来,Co-Scientist的多agent科学推理也有看头。

智能体 Google 产品更新 多模态
AI HOT ·

Google Colab CLI 发布

01:12 Google Developers Blog(RSS) 精选 75 Google 推出 Colab 命令行界面(CLI),允许开发者和 AI 智能体将本地终端连接到远程 Colab 运行时,实现无摩擦执行。该轻量级 CLI 支持请求高性能 GPU、远程运行本地 Python 脚本,并检索工件日志或模型(如微调后的 Gemma 3 适配器)。工具可直接集成到标准终端环境,可被 Antigravity、Claude Code 等 AI 智能体调用以管理复杂机器学习流水线。 Google MCP/工具 产品更新 部署/工程 推荐理由: 对于习惯在 Colab 上薅免费 GPU 的开发者,这个 CLI 把本地开发、远程跑训练这套流程的摩擦降到了几乎为零,而且直接对接 AI agent,实验自动化往前迈了一大步。

Google MCP/工具 产品更新 部署/工程
AI HOT ·

在OpenRouter上线:来自@Sourceful的Riverflow 2.5。 首个具有独立评分标准的图像模型,你可控制该标准以引导其思维和编辑,并具备可控的推理努力,可在速度与质量之间进行权衡。 免费至6月9日(周二)。Fast和Pro见下方🧵。

01:11 OpenRouter @ OpenRouter 精选 60 图像生成 模型发布 关联讨论 1 条 X:OpenRouter (@OpenRouter) 推荐理由: OpenRouter 把图像模型的可控性推进了一步,独立的评分量规让调参不再是玄学,对追求精确输出的设计师和产品人来说,是个值得上手试试的新工具。

图像生成 模型发布