AI and technology watch

AI 快讯

聚合 24 小时内的人工智能与开发者生态动态,保留来源链接方便继续阅读。

---
AI HOT ·

添加文本、视频或最多五张图片作为素材,Gemini Omni可以将它们全部组合成一个连贯的十秒视频。 今天就来试试,并在回复中分享你的创作。👇

23:51 Google Gemini @ GeminiApp 精选 75 Google 产品更新 多模态 视频 推荐理由: 把文字、视频、图片一股脑扔给 Gemini Omni 就能自动合成十秒视频,这个功能对短视频创作者来说是个省时省力的玩具,值得立刻试试。

Google 产品更新 多模态 视频
AI HOT ·

选择保持人性

04:27 Ethan Mollick:One Useful Thing(RSS) 精选 78 社交媒体平台上的帖子内容正变得越来越相似。这种趋同现象可能意味着大量内容正在被AI生成或同质化处理,引发了人们对于内容原创性与人类独特视角的讨论。 大佬观点 推荐理由: Ethan Mollick 这篇把 AI 时代‘保留人性’的抉择讲透了,不是技术问题而是身份问题,做产品的人尤其该读,它会改变你设计功能的默认前提。

大佬观点
AI HOT ·

Gemini Omni 视频提示词使用指南

05:28 Google AI @ GoogleAI 精选 75 Google 发布了其多模态模型 Gemini Omni 的视频生成功能使用指南。该模型可通过 Gemini 应用、Google Flow 等平台体验。指南包含五项提示词技巧:利用模型已有的现实世界知识进行简洁描述;精确控制文本在视频中的渲染与排版;使用专业镜头指令(如推拉摇移)像电影摄影师一样调度画面;通过迭代编辑高效修改视频;以及在生成中直接调整角色的动作节奏或情绪。其核心在于通过精准的提示词引导模型生成复杂且可控的视频内容。 Google 教程/实践 视频 推荐理由: Google 官方放出的视频提示技巧,没有废话全是可复制的 prompt,想玩 Gemini Omni 的创作者可以直接抄作业。

Google 教程/实践 视频
AI HOT ·

推出 Runway MCP。现在你可以将 Runway 直接连接到 Claude、ChatGPT、Cursor、Replit 等平台。 使用最先进的模型(如 Gen-4.5、Seedance 2.0、GPT Images 2.0、Kling 等)生成精美的图像和视频,直接在你当前的工作环境中完成。 通过下方链接,几秒钟内即可将 MCP 连接到你的智能体。

22:30 Runway @ runwayml 精选 73 MCP/工具 产品更新 图像生成 视频 推荐理由: Runway把Gen-4.5和Seedance塞进MCP,以后在Claude、Cursor里直接生成图片视频,省掉来回切换,对天天用AI做内容的人来说是个实打实的效率提升。 22:20 Hugging Face:Blog(RSS) 精选 68 通过万亿参数与 Hub Bucket 实现增量权重同步:TRL 中的增量权重同步 本文标题涉及 Hugging Face TRL 框架中一项具体的增量权重同步技术。正文重申了 Hugging Face 的核心使命,即致力于通过开源和开放科学,来推动人工智能的进步与普及。 Hugging Face 产品更新 开源生态 部署/工程 推荐理由: TRL 这个 Delta Weight Sync 摆明了给大模型分布式训练省时间,团队如果还在手动倒腾权重文件,值得点开看看,说不定省下的时间够喝杯咖啡。 22:10 OpenAI:官网动态(RSS · 排除企业/客户案例) 精选 56 使用 Codex 构建自改进税务智能体 OpenAI、Thrive 与 Crete 合作,使用 Codex 构建了一个自改进的税务智能体。该智能体能够自动处理报税流程,提升工作准确性并加速整体工作流。 智能体 OpenAI 教程/实践 推荐理由: OpenAI 联合 Thrive 把 Codex 塞进税务流程,做出了能自我纠错的申报 agent,金融自动化的同学可以看看他们的错误反馈循环怎么设计的。 22:09 Runway:News(网页) 精选 73 Runway 推出 Model Context Protocol 服务器 Runway 正式推出 Runway MCP 服务器,允许任何兼容 MCP 的 AI 智能体(如 Claude、ChatGPT、Cursor)在对话界面中直接生成图像与视频,无需切换工作流。该服务器接入了 Runway 最新的多款 SOTA 模型,包括 Gen-4.5、Seedance 2.0、GPT Image 2、Kling 3.0 及 Nano Banana Pro。其应用场景涵盖为产品制作营销视频、批量生成网站视觉素材、创作角色广告以及在应用开发中集成视觉内容。用户设置简便,通过 runwayml.com/mcp 添加服务器并登录现有 Runway 账户即可使用,无需单独申请 API 密钥。 MCP/工具 产品更新 多模态 推荐理由: Runway 把 Gen-4.5 和 Seedance 2.0 等模型接入了 MCP,以后做产品图、营销视频不用切窗口,这个集成对依赖视觉内容的 Agent 工作流是个 real upgrade。 20:37 The Verge:AI(RSS) 精选 72 教皇没对AGI上头

MCP/工具 产品更新 图像生成 视频 Hugging Face 开源生态 部署/工程 智能体 OpenAI 教程/实践 多模态 Anthropic 安全/对齐 行业动态 Google 检索增强 论文/研究 大佬观点 现象/趋势 推理 模型发布 政策/监管 编码 数据/训练
AI HOT ·

据报道Claude Mythos以"巧妙简洁的证明"解决了OpenAI里程碑式的Erdős问题

03:02 The Decoder:AI News(RSS) 精选 72 Anthropic工程师Sholto Douglas表示,Claude Mythos在周末期间解决了OpenAI提出的Erdős单位距离猜想问题,并给出了一个“巧妙简洁的证明”。这一成果被描述为人工智能在数学发现领域存在“严重超前”迹象。 Anthropic OpenAI 推理 行业动态 推荐理由: OpenAI 刚破完 70 年猜想,Claude 就整了个更漂亮的证明,AI 做数学不再是哪家独门,能力过剩的信号很明显了。

Anthropic OpenAI 推理 行业动态
AI HOT ·

智能体重力:谁在运行你的智能体?

03:31 Tomer Tunguz 博客(VC 分析) 精选 58 在数据时代,数据重力是核心力量;而在智能体时代,智能体重力将扮演同样角色。智能体运行需要巨大算力,主要平台将激烈争夺以将其留在自家生态。平台上的智能体与数据越多,其智能体重力就越强。例如,Databricks在微软平台推出的某个功能,虽未明言此目的,却让用户更容易在Databricks中构建智能体,而非微软自家的Fabric。这可能使用户不知不觉间将高价值的智能体及数据工作负载迁移至该平台。因此,赢得并维持智能体重力,将成为智能体时代的核心竞争主题。 智能体 大佬观点 数据/训练 推荐理由: Tomer Tunguz 提出「Agent Gravity」概念,把数据平台竞争的逻辑从数据引力延伸到了代理引力,做 Infra 和做 Agent 的人都应该读一读,这可能会影响你对平台锁定的判断。

智能体 大佬观点 数据/训练
AI HOT ·

小米MiMo-V2.5系列API价格永久下调,最高降幅达99%,现与DeepSeek V4 Pro同价。Token套餐同步升级,同等价格下可用token量增加5-8倍,计费规则更简单透明。所有现有用户套餐额度将全额重置。此次降价源于MiMo全栈推理优化与服务效率提升,后续将发布技术博客详述细节。MiMo-V2.5-TTS限时免费,新定价于5月26日生效。

03:33 Chubby♨️ @ kimmonismus 精选 78 Xiaomi MiMo : 🚀 Better inference efficiency, lower costs, broader access. MiMo-V2.5 Series API pricing is now permanently reduced - b... 产品更新 推理 关联讨论 1 条 Hacker News 热门(buzzing.cc 中文翻译) 推荐理由: MiMo 2.5 Pro 降价 99%,API 成本直接拉到和 DeepSeek V4 Pro 一个水平,推理优化带来的价格战升级,用模型的可以闭眼切了。

产品更新 推理
AI HOT ·

我写了一篇新文章,探讨我们需要保留哪些人类特质,以及哪些可以交给AI,其中涉及教育、咨询领域的实验,以及最近关于文学奖的争议。

04:02 Ethan Mollick @ emollick 精选 75 大佬观点 现象/趋势 推荐理由: Ethan Mollick 把教育、咨询、文学奖三个领域的真实实验揉在一起,不是喊“AI 抢工作”,而是给出 keep human / hand over 的具体边界,每个带团队的人都该看看。

大佬观点 现象/趋势
AI HOT ·

我们如何对不同产品中的Claude进行隔离控制

02:11 Anthropic:Engineering(事故复盘 + 工程实践 · 网页) 精选 70 Anthropic通过三重机制控制Claude智能体的部署风险,包括用户误用、模型异常行为和外部攻击。其防护策略聚焦于三个层面:通过沙箱、虚拟机和网络出口控制限制智能体运行环境;利用系统提示词和模型训练引导其行为;以及对MCP服务器、第三方插件等外部内容实施细粒度权限管理。文章以Claude Code、claude.ai和Claude Cowork为例,阐述了不同产品如何设计对应的隔离架构。 智能体 Anthropic 安全/对齐 部署/工程 推荐理由: Anthropic 这次没画饼,实打实把 Claude 三款产品两年来的安全坑和架构演变全摊开讲了,从沙箱逃逸到钓鱼攻击,做 agent 的人读一遍能少踩很多坑。

智能体 Anthropic 安全/对齐 部署/工程
AI HOT ·

在 Replit 上为你的应用添加登录有两种方式: → Replit Auth:零配置,用户使用其 Replit 账户登录 → Clerk Auth:你自己的品牌化登录,开发/生产环境均只需一个提示词。文档和视频见下方 👇 文档:https://docs.replit.com/learn/projects-and-artifacts/auth#auth

00:10 Replit ⠕ @ Replit 精选 63 产品更新 部署/工程 推荐理由: 一个 Replit 的小功能点,但如果你在用它快速出应用,这个零配置登录能省不少重复劳动。视频和文档都配好了,五分钟就能接上。

产品更新 部署/工程
AI HOT ·

团队推出 KPop,用于稳定大规模 MoE 模型的智能体强化学习训练。它用基于二元 KL 散度的自适应掩码机制,替代了此前 IcePop 方法中的固定比例掩码,能根据训练过程中的训练-推理不匹配程度动态调整。这一改进使得 Ring-2.6-1T 模型在无需修改基础设施或路由重放的情况下,仅通过纯 RL 训练,在 SWE-bench Verified 上取得了超过 76 分的成绩。

23:29 Ant Ling @ AntLingAGI 精选 65 Jia Guo : Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas... 智能体 数据/训练 编码 论文/研究 关联讨论 1 条 X:蚂蚁百灵 (@AntLingAGI) 推荐理由: 蚂蚁团队把 IcePop 升级成 KPop,从固定掩码变成自适应 KL 区域,思路很巧。Ring-2.6-1T 纯 RL 直接冲到 SWE-bench 76+,做 agentic RL 训练的同学值得翻一下博客。

智能体 数据/训练 编码 论文/研究
AI HOT ·

未来展望:2026年5月的一些想法

23:49 Nathan Lambert:Interconnects(RSS) 精选 67 文章展望了截至2026年5月AI领域的动态。内容涉及 Gemini Flash 3.5 的发布、名为 Mythos 的新产品或项目、开源与闭源生态平衡(open-closed balance)的讨论、美国开源力量的显著增长(America's open-source surge),以及由此引发的新兴权力博弈(emerging power struggles)。 大佬观点 开源生态 现象/趋势 推荐理由: Nathan Lambert把Gemini Flash、Mythos等事件串在一起,揭示开源闭源博弈深层逻辑,对搞清行业走向很有启发。 23:29 Ant Ling @ AntLingAGI 精选 65 团队推出 KPop,用于稳定大规模 MoE 模型的智能体强化学习训练。它用基于二元 KL 散度的自适应掩码机制,替代了此前 IcePop 方法中的固定比例掩码,能根据训练过程中的训练-推理不匹配程度动态调整。这一改进使得 Ring-2.6-1T 模型在无需修改基础设施或路由重放的情况下,仅通过纯 RL 训练,在 SWE-bench Verified 上取得了超过 76 分的成绩。 Jia Guo : Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas... 智能体 数据/训练 编码 论文/研究 关联讨论 1 条 X:蚂蚁百灵 (@AntLingAGI) 推荐理由: 蚂蚁团队把 IcePop 升级成 KPop,从固定掩码变成自适应 KL 区域,思路很巧。Ring-2.6-1T 纯 RL 直接冲到 SWE-bench 76+,做 agentic RL 训练的同学值得翻一下博客。 22:58 SenseTime @ SenseTime_AI 精选 70 SenseNova-U1全训练代码开源,支持多模态多任务训练 OpenSenseNova开源了SenseNova-U1的完整训练代码库,支持其8B密集模型与A3B MoE架构。该代码库使用一个统一的框架,可同时训练多种多模态任务,包括文本到图像生成、图像编辑、交错生成及文本与视觉理解。工程上为大规模训练设计,支持混合并行、流式可恢复数据管线、环境变量驱动配置以及从1×8 GPUs到多节点集群的扩展能力。代码已在GitHub开源,采用Apache-2.0协议。 图像生成 多模态 开源/仓库 开源生态 关联讨论 1 条 X:商汤 SenseTime (@SenseTime_AI) 推荐理由: 商汤这次直接把多模态训练的全栈代码开源了,Apac

大佬观点 开源生态 现象/趋势 智能体 数据/训练 编码 论文/研究 图像生成 多模态 开源/仓库 视频 行业动态 部署/工程 Microsoft 安全/对齐 Google 搜索 OpenAI 推理 模型发布 arXiv 端侧 GitHub MCP/工具 DeepMind 产品更新 Hugging Face Anthropic
AI HOT ·

消息称字节跳动今年计划最高支出 700 亿美元,用于建设 AI 基础设施、数据中心

16:14 IT之家(RSS) 精选 74 据知情人士消息,字节跳动正讨论今年最高 700 亿美元的支出计划,主要用于建设数据中心和其他 AI 基础设施。相关资金很大一部分将来自其 2025 年约 500 亿美元的利润。该支出数字仍属初步方案,可能按季度调整,资本支出或达 4000 亿元至 5000 亿元。若环境理想,明年资本支出甚至可能提高至约 1000 亿美元。此举意在巩固其在 AI 聊天机器人、视频生成等领域的领先地位。相比美国,中国数据中心建设成本更低。字节跳动近期已协议采购数百万颗高通芯片以支持其 AI Agent 服务。 行业动态 推荐理由: 字节这动作表明大厂对 AI 的基建投入没见顶,反而在加速,700 亿美元的规模会让所有算力链上的玩家重新算账,也是对中国云计算市场的一次压力测试。

行业动态
AI HOT ·

SenseNova-U1全训练代码开源,支持多模态多任务训练

22:58 SenseTime @ SenseTime_AI 精选 70 OpenSenseNova开源了SenseNova-U1的完整训练代码库,支持其8B密集模型与A3B MoE架构。该代码库使用一个统一的框架,可同时训练多种多模态任务,包括文本到图像生成、图像编辑、交错生成及文本与视觉理解。工程上为大规模训练设计,支持混合并行、流式可恢复数据管线、环境变量驱动配置以及从1×8 GPUs到多节点集群的扩展能力。代码已在GitHub开源,采用Apache-2.0协议。 图像生成 多模态 开源/仓库 开源生态 关联讨论 1 条 X:商汤 SenseTime (@SenseTime_AI) 推荐理由: 商汤这次直接把多模态训练的全栈代码开源了,Apache-2.0 协议,从文生图到视觉理解一个栈搞定,做多模态研究的可以直接拿去改,诚意挺足。

图像生成 多模态 开源/仓库 开源生态
AI HOT ·

100万上下文窗口。更智能的推理。更多可能性。很高兴看到 Qwen3.7 Max 现已通过 @opencode 支持 Go 语言调用 🚀

14:03 Alibaba Cloud @ alibaba_cloud 精选 78 OpenCode : Qwen3.7 Max now available in Go - text only - 1M context - smartest model in the Qwen family to date 推理 模型发布 推荐理由: Qwen3.7 Max把上下文拉到1M,推理能力也号称迄今最强,对需要处理超长文档的开发者来说是个真家伙,虽然不是多模态,但在文本任务上值得一试。 14:03 Alibaba Cloud @ alibaba_cloud 精选 64 阿里云在Omdia的智能体AI市场雷达中被评为领导者。Omdia强调了阿里云在每一层的全栈能力,认可其是首个将整个平台围绕智能体范式进行构建的云服务商。 智能体 行业动态 推荐理由: 阿里云被 Omdia 评为 Agentic AI 领导者,不是自说自话的 PR,而且点出它是第一家把全平台转向 Agent 范式的云厂商,对做企业 AI 落地的团队是个需要留意的信号。 11:19 HuggingFace Daily Papers(社区热门论文) 精选 70 MiniMax-M2系列:微小激活释放最大真实世界智能 MiniMax推出M2系列大语言模型。其旗舰模型M2采用混合专家(MoE)架构,总参数229.9B,每个token仅激活9.8B参数。该系列专为智能体部署设计,基于三大组件构建:智能体驱动的数据管道、可扩展的智能体原生强化学习系统Forge,以及展示早期自我进化能力的M2.7检查点。这种设计使其在智能体编码、深度搜索、办公任务及推理基准测试中达到了前沿性能水平。 智能体 推理 模型发布 推荐理由: MiniMax 把激活参数压到 9.8B 却敢喊前沿,整套 design 都是为 agent 场景重做的,搞 agent 的开发者该认真看一眼这个信号。 11:13 IT之家(RSS) 精选 78 我国将加快研究推进人工智能健康发展综合性立法、低空经济立法等 政策/监管 行业动态 推荐理由: 国内AI综合性立法首次摆上国务院日程,不再是散装监管,所有做AI的公司都得盯着这个信号。 10:02 Alibaba Cloud @ alibaba_cloud 精选 63 阿里云宣布以白金会员身份加入PyTorch基金会。作为AI基础设施全球领导者,阿里云是开源模型家族Qwen的缔造方,已在多样化硬件上大规模运行PyTorch,将为社区带来生产级工程经验。 PyTorch : We're excited to welcome @alibaba_cloud as a Platinum Member of the PyTorch Foundation 🎉 Alibaba Cloud is a global lea

推理 模型发布 智能体 行业动态 政策/监管 开源生态 Anthropic 产品更新 编码 部署/工程 MCP/工具 安全/对齐 Google 教程/实践 视频 大佬观点 现象/趋势 数据/训练 OpenAI
AI HOT ·

Project Luxo:跨越AI媒体的恐怖谷

22:34 Runway:News(网页) 精选 74 Runway通过Project Luxo研究发现,AI生成视频已跨越“恐怖谷”。他们向创意生态从业者展示了《The Rogue》等AI短片及广告样片,评估显示观众开始关注故事本身,而非技术瑕疵。所有作品均由单人团队制作,耗时从3周到4小时不等。Runway认为,这标志着AI媒体成熟——当技术足够好以至于“隐形”,观众沉浸于故事时,便实现了这一跨越。 多模态 现象/趋势 视频 关联讨论 1 条 X:Runway (@runwayml) 推荐理由: Runway放出三部AI短片和一份93%好评的观众调研,正式宣告AI视频跨过恐怖谷。片子质量加上单人几小时出片的效率,让“技术隐身于故事”变得很具体。

多模态 现象/趋势 视频
AI HOT ·

AI能否理解人类价值观的现实复杂性?微软亚洲研究院的全新全球AI价值观挑战赛,诚邀哲学、伦理、法学和社会科学领域的研究人员共同探索。立即注册:https://msft.it/6012vk8OO

22:10 Microsoft Research @ MSFTResearch 精选 62 Microsoft 安全/对齐 行业动态 推荐理由: 微软发起跨学科价值观挑战,把哲学、法律和社科拉到 AI 对齐战场,这对关心安全的人是个值得跟进的信号,但普通开发者目前还用不上。

Microsoft 安全/对齐 行业动态
AI HOT ·

SynthID已为超过1000亿条内容添加水印,但透明度需要行业协作。 因此,我们正与OpenAI、ElevenLabs和Kakao合作,将SynthID水印技术集成到他们的模型中--这延续了我们与NVIDIA共同推动的全行业趋势。

19:57 Google DeepMind @ GoogleDeepMind 精选 71 Google OpenAI 安全/对齐 行业动态 推荐理由: SynthID 水印覆盖百亿内容后又拉上 OpenAI 和 ElevenLabs,从谷歌独门暗器变成行业标配,AI 生成内容溯源终于不是各说各话,做合规的可以盯着后续集成节奏。

Google OpenAI 安全/对齐 行业动态