AI and technology watch

AI 新闻

聚合过去 24 小时 AI 与开发者生态动态,并提供来源链接以便深入阅读。

---
AI HOT ·

从屏幕到现实,只需一个提示词。 看看这些令人惊叹的例子,了解 Gemini Omni 如何理解你的视频输入,应用物理规律,并生成无缝的新动作。 亲自试试看,并在回复中分享你如何实验 Gemini Omni 👇

05:36 Google Gemini @ GeminiApp 精选 69 Google 产品更新 多模态 视频 推荐理由: 我看完这几个例子直呼离谱,从屏幕视频直接生成真实物理运动,Gemini Omni 可能重新定义了多模态交互。做动画和视频的可以冲了。 05:06 ChatGPT @ ChatGPTapp 精选 69 对于每个始于"就问一件事"却演变成完整长篇的ChatGPT对话:目录功能现已推出。 适用于包含5条以上回复的对话。 OpenAI 产品更新 推荐理由: ChatGPT 终于给长对话加了目录,这个功能早该有了。如果你经常跟 ChatGPT 拉扯几十轮,现在可以不用疯狂滚屏了,直接跳转关键节点。 04:55 Luma @ LumaLabsAI 精选 61 博客文章完成了思考。现在让宣传来发挥作用。 输入内容。定义钩子。Luma Agents 从那里构建每一张宣传图。 投入使用 → http://lumalabs.ai/app 产品更新 图像生成 视频 推荐理由: Luma AI 把博客内容自动转成推广视频片段,内容团队又多一个「一键懒人」选项,但成品够不够「可发」还得看实际测试。 04:19 Greg Brockman @ gdb 精选 76 OpenAI 实时翻译功能--使用70多种输入语言说话,翻译成13种输出语言: gpt-realtime-translate 接收任意语言的语音输入,并输出目标语言的语音。 大语言模型很棒,但特定用例需要专用模型。 我们正在智能眼镜上运行此功能。 cayden 凯登 : OpenAI just dropped a completely new kind of model gpt-realtime-translate takes in speech audio from any language and ou... OpenAI 多模态 模型发布 语音 推荐理由: OpenAI悄悄推出一个专门做实时语音翻译的模型,不是通用LLM,而是专用模型。这标志着AI交互从文字转向语音的第一步,做翻译硬件或AR眼镜的团队要睡不着了。 04:10 Runway @ runwayml 精选 72 我们持续为 Runway API 添加新模型和端点,以便您能将最佳生成能力直接集成到应用、产品和平台中。通过 Runway API,您可以在一个地方获得所需的所有模型,包括 Seedance 2.0、GPT Image 2、HappyHorse 1.0、Nano Banana Pro、Magnific Precision Upscaler V2 等更多内容。请通过下方链接开始使用。 产品更新 图像生成 推荐理由: Runway API 这次集中上新,Seedance 2.0 加入虽然方便了开发者,但没有模型能力的质变,更像是生

Google 产品更新 多模态 视频 OpenAI 图像生成 模型发布 语音 智能体 MCP/工具 教程/实践 编码 现象/趋势 行业动态 大佬观点 推理 部署/工程 Hugging Face 数据/训练 论文/研究 安全/对齐 评测/基准
AI HOT ·

Qwen-VLA:从理解世界到在其中行动

23:13 Qwen:Blog Retrieval(API) 精选 74 Qwen Studio提供全面功能,涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网络搜索集成、工具利用及Artifacts。 具身智能 多模态 模型发布 推荐理由: Qwen终于把VLM进化成VLA,从看得懂变成能动手,对做具身智能的团队来说可能是一个新基座,就看动作输出的实际效果了。

具身智能 多模态 模型发布
AI HOT ·

Kling AI戛纳展示--RAPHAEL:AI工作流幕后 深入了解RAPHAEL,一部使用Kling AI创作的AI驱动故事片。看看创作者如何在整个电影制作流程中运用Kling AI,从创意构思到最终电影画面,简化制作并释放新的创作可能性。

23:24 Kling AI @ Kling_ai 精选 62 教程/实践 视频 推荐理由: 可灵AI把一部AI电影的全流程拆给你看,从创意到成片每一步都有真家伙,想用AI做视频短片的看完就知道工业流水线长什么样了。 23:13 Qwen:Blog Retrieval(API) 精选 74 Qwen-VLA:从理解世界到在其中行动 Qwen Studio提供全面功能,涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网络搜索集成、工具利用及Artifacts。 具身智能 多模态 模型发布 推荐理由: Qwen终于把VLM进化成VLA,从看得懂变成能动手,对做具身智能的团队来说可能是一个新基座,就看动作输出的实际效果了。 19:30 Hugging Face:Blog(RSS) 精选 64 PyTorch 中的性能分析(第一部分):torch.profiler 初学者指南 该指南旨在介绍如何在 PyTorch 中使用 torch.profiler 进行性能分析。文章是系列教程的第一部分,面向初学者,讲解如何通过该工具分析模型训练与推理过程的性能瓶颈。 Hugging Face 教程/实践 部署/工程 推荐理由: 这是一份干净利落的 PyTorch 性能分析入门手册,读完就能上手排查训练瓶颈,推荐给所有需要优化模型速度的人。 19:21 IT之家(RSS) 精选 75 中央网信办等四部门:提升全民人工智能素养,加快人才培育、深化普及应用 中央网信办等四部门联合印发《2026年提升全民数字素养与技能工作要点》,部署了六项重点任务。其中明确要求“提升全民人工智能素养”,具体包括强化人工智能赋能教育、加快人工智能人才培育、深化人工智能普及应用。其他任务涵盖数字资源供给、应用场景建设、普惠包容发展、安全有序网络空间以及协同联动机制。 政策/监管 推荐理由: 四部门联合发文提升全民AI素养,这是政策层面对“AI普及”最明确的信号,做AI教育、培训、应用落地的都可以把这份文件当导航。 19:10 Hacker News 热门(buzzing.cc 中文翻译) 精选 73 Claude Code--文档中未提及的所有可配置选项 该篇文章标题涉及“Claude Code”的可配置选项,但提供的正文内容仅包含一张图片和一个外部链接,未给出任何关于模型版本、参数、性能、价格或功能的具体信息。根据规则,无法在摘要中提及原文不存在的细节。 Anthropic 教程/实践 编码 推荐理由: 如果你在用 Claude Code,这份从源码里扒出的隐藏配置清单能让你摆脱默认模式,好多选项官方文档压根没提。 18:50 OpenAI:官网动态(RSS · 排除企业/客户案例) 精选 58 用 Rosalind Biodefense 增强社会韧性 OpenAI 推出 Rosalind Bio

教程/实践 视频 具身智能 多模态 模型发布 Hugging Face 部署/工程 政策/监管 Anthropic 编码 OpenAI 产品更新 开源生态 语音 智能体 MCP/工具 DeepMind Google 大佬观点 图像生成 论文/研究 数据/训练 评测/基准 现象/趋势 行业动态 安全/对齐 GitHub 开源/仓库 推理 xAI
AI HOT ·

Claude Code--文档中未提及的所有可配置选项

19:10 Hacker News 热门(buzzing.cc 中文翻译) 精选 73 该篇文章标题涉及“Claude Code”的可配置选项,但提供的正文内容仅包含一张图片和一个外部链接,未给出任何关于模型版本、参数、性能、价格或功能的具体信息。根据规则,无法在摘要中提及原文不存在的细节。 Anthropic 教程/实践 编码 推荐理由: 如果你在用 Claude Code,这份从源码里扒出的隐藏配置清单能让你摆脱默认模式,好多选项官方文档压根没提。

Anthropic 教程/实践 编码
AI HOT ·

中央网信办等四部门:提升全民人工智能素养,加快人才培育、深化普及应用

19:21 IT之家(RSS) 精选 75 中央网信办等四部门联合印发《2026年提升全民数字素养与技能工作要点》,部署了六项重点任务。其中明确要求“提升全民人工智能素养”,具体包括强化人工智能赋能教育、加快人工智能人才培育、深化人工智能普及应用。其他任务涵盖数字资源供给、应用场景建设、普惠包容发展、安全有序网络空间以及协同联动机制。 政策/监管 推荐理由: 四部门联合发文提升全民AI素养,这是政策层面对“AI普及”最明确的信号,做AI教育、培训、应用落地的都可以把这份文件当导航。

政策/监管
AI HOT ·

PyTorch 中的性能分析(第一部分):torch.profiler 初学者指南

19:30 Hugging Face:Blog(RSS) 精选 64 该指南旨在介绍如何在 PyTorch 中使用 torch.profiler 进行性能分析。文章是系列教程的第一部分,面向初学者,讲解如何通过该工具分析模型训练与推理过程的性能瓶颈。 Hugging Face 教程/实践 部署/工程 推荐理由: 这是一份干净利落的 PyTorch 性能分析入门手册,读完就能上手排查训练瓶颈,推荐给所有需要优化模型速度的人。

Hugging Face 教程/实践 部署/工程
AI HOT ·

谷歌 DeepMind CEO 哈萨比斯:AGI 最快三年内到来,研发速度远超预期

15:21 IT之家(RSS) 精选 70 谷歌 DeepMind 首席执行官德米斯·哈萨比斯预测,AGI 研发速度远超预期,最快可能在 2029 年至 2030 年前后出现。作为 AlphaGo、AlphaFold 的主导者,他认为当前 AI 智能体是未来更强智能的预演,随着多模态和自主决策能力成熟,三年内迎来 AGI 关键突破已非科幻。但他同时警示,全球社会对 AGI 到来的准备严重不足,必须提前建立规则与防护机制。 DeepMind Google 大佬观点 推荐理由: 哈萨比斯作为造出 AlphaFold 的诺贝尔奖得主,三年内 AGI 的判断不是空话,他同时强调社会完全没准备好,这种紧迫感比单纯的时间表更值得看。

DeepMind Google 大佬观点
AI HOT ·

小米开源可控视频音效生成模型 ControlFoley,让声音"按你想要的来"

17:21 IT之家(RSS) 精选 74 小米大模型应用团队发布开源可控视频音效生成模型 ControlFoley,旨在解决创作中的可控性难题。该模型统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。ControlFoley 在 VGGSound-Test 等多个 benchmark 上取得开源 SOTA 表现,其代码、模型权重和在线 Demo 均已开放。 多模态 开源生态 模型发布 语音 推荐理由: 小米开源的 ControlFoley 把视频音效生成从“看画面配声音”推进到“按意图来”,开源 SOTA 且直接提供 Skill,做视频创作的可以上手试试。

多模态 开源生态 模型发布 语音
AI HOT ·

用 Rosalind Biodefense 增强社会韧性

18:50 OpenAI:官网动态(RSS · 排除企业/客户案例) 精选 58 OpenAI 推出 Rosalind Biodefense,为通过审核的开发者和美国政府伙伴提供 GPT-Rosalind 的可信访问,以推动前沿 AI 在生物防御、公共卫生和大流行病准备方面的应用。 OpenAI 产品更新 推荐理由: 又一个OpenAI限定合作伙伴的产品发布,GPT-Rosalind聚焦生物防御,普通开发者暂时用不上,但给前沿AI在公共健康领域的落地开了扇窗。

OpenAI 产品更新
AI HOT ·

WorldMemArena:通过行动-世界交互循环评估多模态智能体记忆

11:29 HuggingFace Daily Papers(社区热门论文) 精选 73 针对现有基准无法精确诊断多模态智能体记忆在动态环境中的具体失败阶段,研究提出了“行动-世界交互循环”记忆模型,并构建了WorldMemArena基准。该基准包含400个多会话多模态任务,涵盖“终身进化”和“智能体执行”两类场景,支持对记忆写入、维护、检索和使用的阶段级评估。研究首次对长上下文、RAG等手工设计系统与基于框架的记忆智能体进行直接比较,发现记忆写入与存储质量的提升不直接带来性能改善,且多模态记忆在利用视觉证据及跨领域稳定性上仍存在挑战。 智能体 多模态 论文/研究 评测/基准 推荐理由: 首个能定位多模态 Agent 记忆“写、维、取、用”哪一步出问题的基准,头对头比较长上下文、RAG 和自管理记忆,结论是写得好未必用得上,做 Agent 的值得认真看。

智能体 多模态 论文/研究 评测/基准
AI HOT ·

Adam's Law:用高频词写Prompt效果更好

12:34 Berryxia.AI @ berryxia 精选 75 FaceMind团队用100种语言和四大核心任务实验发现,在语义不变的前提下,使用预训练语料中出现频率更高的词汇(高频表达)来撰写提示词或进行微调,可以显著提升大语言模型的表现。这被总结为Adam’s Law(文本频率定律),它为数据工程补上了“频率”这一新维度。原理在于高频表达能让模型在它最熟悉的概率空间内工作,从而优化输出质量。 Berryxia.AI : http://x.com/i/article/2044264645683539968 教程/实践 数据/训练 推荐理由: 别再给AI拽高级词汇了,FaceMind团队用实验证明,高频表达能让模型表现更好。这个发现简单反直觉,但能立刻改变你写Prompt的习惯,下次先想想这话模型见过几次。

教程/实践 数据/训练
AI HOT ·

彩色噪声扩散采样

14:30 HuggingFace Daily Papers(社区热门论文) 精选 71 扩散模型的生成轨迹具有频谱偏差,早期处理低频全局结构,后期处理高频细节。传统随机微分方程求解器在整个过程中均匀注入白噪声,能量分配效率低。本研究提出彩色噪声采样(CNS),一种免训练的即插即用采样器。它通过动态、随时间和频率调整的噪声调度,更高效地将能量分配给尚未解析的频段。在SiT、JiT、FLUX等架构上的实验表明,CNS作为推理时的替换采样器显著提升了生成质量:在ImageNet-256上,无引导FID在SiT-XL/2上从8.26降至6.27,在JiT-B/16上从32.39降至26.69,在JiT-H/16上从11.88降至8.31,并且在使用无分类器引导时带来一致改进。 图像生成 论文/研究 推荐理由: 扩散模型采样时的白噪声注入一直很粗糙,这篇论文用动态调制的有色噪声把能量怼到未解析的频段,在多个模型上 FID 直接骨折,而且完全训练无关,拿来就能用。

图像生成 论文/研究
AI HOT ·

阶跃星辰 Step 3.7 Flash 发布,聚焦智能体效率

08:09 StepFun @ StepFun_ai 精选 75 阶跃星辰(Step)发布了开源大模型 Step 3.7 Flash,主打智能体(Agent)工作流的效率。该模型在 ClawEval-1.1(67.1分)和 SimpleVQA Search(79.2分)评测中排名第一。其架构为 198B 参数的 MoE,约 11B 为活跃参数,支持 256K 上下文。模型具备多模态理解能力,能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面,它致力于高可靠性,τ²-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链,并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。 智能体 多模态 开源生态 推理 关联讨论 3 条 X:阶跃星辰 StepFun (@StepFun_ai) IT之家(RSS) X:OpenRouter (@OpenRouter) 推荐理由: Step 3.7 Flash 把 Agent 效率卷到新高度,开源权重且能跑在 Mac 上,做智能体的可以试试。

智能体 多模态 开源生态 推理
AI HOT ·

llm-anthropic 0.25.1

08:41 Simon Willison 博客 精选 72 llm-anthropic 发布 0.25.1 版本。主要更新包括:新增 Claude Opus 4.8 (`claude-opus-4.8`) 模型;为账户启用了该功能的组织新增了 `-o fast 1` 选项以使用快速模式;调整了各模型的默认 `max_tokens` 值,使其直接使用模型的最大输出长度,而非固定的 8,192。 Anthropic GitHub 产品更新 开源/仓库 推荐理由: Simon 的 llm 插件第一时间支持了 Claude Opus 4.8,如果你用他的 CLI 工具切换模型,这次更新能让你马上用到新模型和 fast mode。

Anthropic GitHub 产品更新 开源/仓库
AI HOT ·

特斯拉 FSD 安全性宣称遭质疑

09:21 IT之家(RSS) 精选 71 特斯拉声称其全自动驾驶软件(FSD)安全性最高可达人类的10倍,但路透社调查发现此数据经不起推敲。参与训练FSD的员工表示该技术远未成熟,其安全演示高度依赖人工。统计方法被11位交通安全研究人员指出存在缺陷,例如与更广泛的联邦事故数据进行不恰当比较。相比之下,竞争对手Waymo采用了更严谨的统计方法。目前,特斯拉FSD仍需驾驶员主动监督,安全部署可能还需数年。 安全/对齐 行业动态 推荐理由: 路透社的调查锤得很实,特斯拉FSD的「10倍安全」根本经不起对比,连自家数据标注员都不敢坐。这是今年自动驾驶行业最响的一记警钟。

安全/对齐 行业动态
AI HOT ·

三星电子业内率先出样 HBM4E 内存

09:21 IT之家(RSS) 精选 71 数据/训练 行业动态 推荐理由: 三星的HBM4E把单堆栈带宽推到3.6TB/s,能效再提16%,对LLM训练是实打实的硬件升级,做AI基础设施和模型训练的可以关注后续量产时间。

数据/训练 行业动态
AI HOT ·

Cursor 团队发布《开发者习惯报告》

09:39 meng shao @ shao__meng 精选 75 报告显示,AI正深刻改变开发工作形态。开发者周均代码产出从约3.6K行增至8.6K行,更大规模的PR(千行以上)占比上升。AI智能体在单次会话中的工具调用数增加约30%,正在处理更复杂的任务。同时,被接受的AI代码在60分钟后的留存率从约76%提升至约81%,表明更多AI生成内容进入了实际代码库。这些趋势共同指向AI已从个人辅助工具,演进为推动开发向更大规模任务与自动化基础设施发展的核心力量。 Cursor : Introducing the Cursor Developer Habits Report. We're sharing some of our findings on how software development is changi... 智能体 现象/趋势 编码 推荐理由: Cursor 这份报告用真实数据揭示了 AI 编程的现状,代码量暴涨、Agent 变强、留存率提升,对开发者来说比看论文更有参考价值。

智能体 现象/趋势 编码