AI and technology watch

AI 新闻

聚合过去 24 小时 AI 与开发者生态动态,并提供来源链接以便深入阅读。

---
AI HOT ·

OpenAI 的前沿治理框架

00:28 OpenAI:官网动态(RSS · 排除企业/客户案例) 精选 65 OpenAI 发布了“前沿治理框架”,阐述其 AI 安全、安全与风险管理实践如何与欧盟和加州新出台的法规要求对齐。该框架旨在规范其前沿模型的开发与部署流程。 OpenAI 安全/对齐 政策/监管 推荐理由: OpenAI 首次把内部安全实践打包成一个对外框架,是为了应对欧盟和加州监管。与其说是技术突破,不如说是合规信号,所有做前沿模型的公司都得开始交这份作业了。

OpenAI 安全/对齐 政策/监管
AI HOT ·

AI智能体时代下的安全变革

00:33 Tomer Tunguz 博客(VC 分析) 精选 61 Lemonade的CISO Jonathan Jaffe探讨了AI智能体时代的安全新挑战。他指出,AI对攻击者和防御者同样强大,但可被利用的漏洞窗口正在缩小,因为AI能更快地生成、审查和修补代码。为此,安全团队正向工程团队转型,例如Lemonade的安全部门均由工程师组成,并构建了包含智能体的内部AI平台。同时,每个智能体(单个终端上可能运行200到10000个)都需要被赋予身份,并在操作点由策略进行更复杂的管控,这超越了当前身份与访问管理系统的能力。 智能体 MCP/工具 大佬观点 推荐理由: Jaffe 给出的结论很提气,AI 对防御方的加成被市场严重低估了,尤其每个 Agent 必须拥有身份和策略控制这个预判,值得所有在做 Agent 架构的人看一遍。

智能体 MCP/工具 大佬观点
AI HOT ·

SGLang 团队与 AMD 合作,使 AMD InstinctTM MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力

00:34 LMSYS:Blog(Chatbot Arena 团队) 精选 68 SGLang 与 AMD 团队合作,通过一系列全栈优化,使 AMD Instinct™ MI355X GPU 在运行 DeepSeek-R1 大模型推理时实现了极具竞争力的总拥有成本。在 129 tok/s/user 的交互延迟下,其成本为每百万 token $0.169,比 NVIDIA B200(Dynamo TRT-LLM)方案低 5%,比 B200(SGLang)方案低 40%。吞吐量方面,24 块 AMD GPU 达到 2,436 tok/s/GPU,比使用 48 块 GPU 的 B200 SGLang 方案每 GPU 吞吐量高 1.25 倍。核心优化包括:MoRI 混合 FP4/FP8 量化全到全通信、MoRI-IO KV Cache 后端、两批重叠与 SDMA、ROCm 上的 Specv2 MTP 以及 CPU 流式处理优化。 推理 论文/研究 部署/工程 推荐理由: AMD MI355X跑DeepSeek-R1的TCO比NVIDIA B200低5%,吞吐还高出1.25倍,这是开源框架SGLang对闭源生态的一次真实挑战,做推理部署的应该点开看看完整的全栈优化。

推理 论文/研究 部署/工程
AI HOT ·

Sesame,这家由Oculus创始人创办的对话式AI初创公司,发布其iOS应用

23:43 TechCrunch:AI(RSS) 精选 72 由Oculus创始人创办的AI初创公司Sesame发布了其iOS应用,该应用将对话式AI智能体带给公众。应用提供更自然的来回交互体验,设计上区别于传统聊天机器人,旨在让用户感觉更像在和真人对话。 产品更新 语音 推荐理由: Oculus创始人做的对话AI,交互设计大概率能看到一些VR时代的人机直觉。虽不是大模型层创新,但产品体验可能重新定义什么样的对话才叫自然。 23:41 Google Developers Blog(RSS) 精选 64 社区如何利用Tunix和TPU训练Gemma学会"思考" Google在Kaggle举办的Tunix黑客马拉松,挑战开发者利用TPU和有限算力,将小型基础模型转变为通用推理引擎。获胜团队通过多阶段后训练流程实现了这一目标,该流程结合了监督微调(SFT)与GRPO、SimPO等先进对齐技术。比赛结果表明,社区能够借助开源资源成功训练出高能力的结构化推理模型。 Google 开源生态 教程/实践 数据/训练 推荐理由: Google 官方比赛总结,证明用 Kaggle TPU 和开源工具就能把 Gemma 训练出不错推理能力,对想自己微调模型的小团队是个实用参考。 23:36 SenseTime @ SenseTime_AI 精选 68 商汤发布信息图生成模型升级,增强多项核心能力 商汤科技介绍了其升级后的信息图生成模型 SenseNova-U1-8B-MoT-Infographic。该模型参数为8B,在四个关键维度进行了优化:文本准确性与可读性增强,减少了重复和不当放大;布局的一致性与合理性提升,背景更稳定;图表与示意图的质量提高;并新增了学术内容的渲染支持。推文提供了在 Hugging Face 上的模型页面链接及能力展示页面。 图像生成 模型发布 关联讨论 1 条 X:商汤 SenseTime (@SenseTime_AI) 推荐理由: 信息图生成赛道又出新货,商汤这次把文本渲染和布局稳定性真正做好了,做学术图表或运营配图的人可以直接去HuggingFace试用,效果肉眼可见的提升。 23:06 Perplexity @ perplexity_ai 精选 77 Perplexity Computer现已登陆Microsoft Excel、Word、PowerPoint和Outlook。 您可以在应用程序的侧边栏中直接使用Computer来协调工作,起草文档、建模、制作演示文稿并处理电子邮件。 现已推出:https://www.perplexity.ai/hub/products/integrations/microsoft 智能体 Microsoft 产品更新 推荐理由: Perplexity把Computer塞进Office全家桶,侧栏里就能写文档、做表

产品更新 语音 Google 开源生态 教程/实践 数据/训练 图像生成 模型发布 智能体 Microsoft OpenAI 部署/工程 视频 arXiv 安全/对齐 论文/研究 Anthropic 行业动态 MCP/工具 检索增强 搜索 DeepSeek 多模态 推理 开源/仓库 编码 大佬观点 端侧
AI HOT ·

Google I/O 2026 一文速览:12 大重要时刻

00:06 Google Blog:AI(RSS) 精选 61 Google I/O 2026 发布会上披露了 12 个重要时刻,其中包括 Gemini Omni 和 Gemini 3.5 Flash 等产品的相关消息。 Google 产品更新 多模态 推理 关联讨论 1 条 Google Research:Blog(网页) 推荐理由: 不想看完整 keynote 的可以看这篇,Google 把 I/O 2026 最硬的发布浓缩成 12 个时刻,从 Gemini 3.5 Flash 到合成语音都有,快速补课首选。

Google 产品更新 多模态 推理
AI HOT ·

社区如何利用Tunix和TPU训练Gemma学会"思考"

23:41 Google Developers Blog(RSS) 精选 64 Google在Kaggle举办的Tunix黑客马拉松,挑战开发者利用TPU和有限算力,将小型基础模型转变为通用推理引擎。获胜团队通过多阶段后训练流程实现了这一目标,该流程结合了监督微调(SFT)与GRPO、SimPO等先进对齐技术。比赛结果表明,社区能够借助开源资源成功训练出高能力的结构化推理模型。 Google 开源生态 教程/实践 数据/训练 推荐理由: Google 官方比赛总结,证明用 Kaggle TPU 和开源工具就能把 Gemma 训练出不错推理能力,对想自己微调模型的小团队是个实用参考。

Google 开源生态 教程/实践 数据/训练
AI HOT ·

Anthropic 在 H 轮融资 650 亿美元后,估值接近万亿美元

05:42 The Decoder:AI News(RSS) 精选 83 Anthropic 在 H 轮融资中筹集了 650 亿美元,公司估值达到 9650 亿美元。首席财务官 Krishna Rao 表示,公司年化收入已超过 470 亿美元。Anthropic 计划将资金投入安全研究、算力扩充以及拓展其 Claude 产品线。 Anthropic 行业动态 推荐理由: Anthropic 融了 650 亿估值直奔万亿,这规模已经不是 AI 公司融资,是国家级战略投资了,对 Claude 用户和行业格局都是信号。

Anthropic 行业动态
AI HOT ·

Anthropic 发布 Claude Opus 4.8:被称作"小幅但实在的改进",在多数基准测试中超越 GPT-5.5

05:42 The Decoder:AI News(RSS) 精选 71 Anthropic 发布其最新模型 Claude Opus 4.8。该模型在大多数基准测试中超越了 GPT-5.5 和 Gemini 3.1 Pro。其代码错误自动捕获能力是前代产品的四倍。同步推出动态工作流功能,可启动数百个并行子智能体来处理跨代码库迁移等任务。 Anthropic 推理 模型发布 推荐理由: Opus 4.8 在多数基准上压过 GPT-5.5,不过更值钱的是那个动态工作流,能并行上百个子任务,重器型项目可以认真试试。 05:42 The Decoder:AI News(RSS) 精选 83 Anthropic 在 H 轮融资 650 亿美元后,估值接近万亿美元 Anthropic 在 H 轮融资中筹集了 650 亿美元,公司估值达到 9650 亿美元。首席财务官 Krishna Rao 表示,公司年化收入已超过 470 亿美元。Anthropic 计划将资金投入安全研究、算力扩充以及拓展其 Claude 产品线。 Anthropic 行业动态 推荐理由: Anthropic 融了 650 亿估值直奔万亿,这规模已经不是 AI 公司融资,是国家级战略投资了,对 Claude 用户和行业格局都是信号。 05:08 xAI @ xai 精选 62 Grok Build 0.2.7 现已发布,包含 /usage、/login、跨子智能体共享终端,以及改进的图像理解功能。 所有更新请查看 https://x.ai/build/changelog xAI 产品更新 推荐理由: xAI 给 Build 加了使用量查询和共享终端,开发体验向 Cursor 靠拢的一小步,如果你在重度用 Grok Build 可以看看 changelog。 04:52 Replit ⠕ @ Replit 精选 74 最好的设计工作不会在聊天框里发生。你需要空间来探索想法、创建变体并进行迭代。 认识新的 Replit Canvas。 你的智能体设计工具,用于构建精美的网站、应用、营销资产等。 智能体 产品更新 推荐理由: Replit 终于在对话之外给了设计师一个能迭代的画布,把 Agent 直接塞进设计工具里,对用 AI 做 UI 的人来说比聊天框强太多了。 03:22 MiniMax (official) @ MiniMax_AI 精选 76 在 @OpenHandsDev 上使用 MiniMax M2.7 进行免费智能体编程? 是的,请给我!限时提供 ⚡👀 OpenHands : We have also partnered with @MiniMax_AI to provide *free access to agents with MiniMax-M2.7* for a limited ti

Anthropic 推理 模型发布 行业动态 xAI 产品更新 智能体 编码 Google 多模态 视频 端侧 数据/训练 论文/研究 MCP/工具 教程/实践 部署/工程 图像生成 大佬观点 OpenAI 安全/对齐 政策/监管 Microsoft
AI HOT ·

Perplexity Computer现已登陆Microsoft Excel、Word、PowerPoint和Outlook。 您可以在应用程序的侧边栏中直接使用Computer来协调工作,起草文档、建模、制作演示文稿并处理电子邮件。 现已推出:https://www.perplexity.ai/hub/products/integrations/microsoft

23:06 Perplexity @ perplexity_ai 精选 77 智能体 Microsoft 产品更新 推荐理由: Perplexity把Computer塞进Office全家桶,侧栏里就能写文档、做表格、理邮件。对每天跟Office打交道的人,这是个无需切换工作流的原地升级。

智能体 Microsoft 产品更新
AI HOT ·

商汤发布信息图生成模型升级,增强多项核心能力

23:36 SenseTime @ SenseTime_AI 精选 68 商汤科技介绍了其升级后的信息图生成模型 SenseNova-U1-8B-MoT-Infographic。该模型参数为8B,在四个关键维度进行了优化:文本准确性与可读性增强,减少了重复和不当放大;布局的一致性与合理性提升,背景更稳定;图表与示意图的质量提高;并新增了学术内容的渲染支持。推文提供了在 Hugging Face 上的模型页面链接及能力展示页面。 图像生成 模型发布 关联讨论 1 条 X:商汤 SenseTime (@SenseTime_AI) 推荐理由: 信息图生成赛道又出新货,商汤这次把文本渲染和布局稳定性真正做好了,做学术图表或运营配图的人可以直接去HuggingFace试用,效果肉眼可见的提升。

图像生成 模型发布
AI HOT ·

发布 Search Toolkit

20:47 Mistral AI:News(网页) 精选 77 Mistral AI 发布了 Search Toolkit 的公共预览版。这是一个用于构建 AI 应用生产级搜索管道的可组合框架。该框架旨在解决团队在搭建搜索基础设施时,因数据摄取、检索和评估工具分散而耗费过多工程时间的问题。Search Toolkit 将这三者整合到单一框架与共享接口中,使团队能更专注于提升搜索质量。该工具开源,可部署在云端、本地或边缘环境,并支持企业搜索、RAG 等多种检索场景。 MCP/工具 检索增强 产品更新 搜索 推荐理由: 做 RAG 的团队都该看一眼,它把 ingestion、retrieval、evaluation 揉进一个开源框架,省下的大把集成时间够你调几次检索策略了。

MCP/工具 检索增强 产品更新 搜索
AI HOT ·

Anthropic 开设米兰办公室,深化意大利企业合作与 AI 安全对话

21:12 Anthropic:Newsroom(网页) 精选 63 Anthropic 在米兰开设其欧洲第六家办公室,旨在与意大利企业及开发者社区合作,负责任地构建和扩展 Claude,并参与关于 AI 的对话。本地团队已与多家金融、生命科学、能源及汽车行业的公司展开合作。案例包括与 JAKALA 合作将 Claude 部署至超 3,000 席位,释放约 70% 高级团队时间;Satispay 借此将 18 个月路线图压缩至 7 个月;Bending Spoons 的大部分代码变更已与 Claude Code 共同完成。Anthropic 承诺支持意大利企业、研究及文化,通过安全的 AI 转型促进发展。 Anthropic 行业动态 推荐理由: Anthropic 把欧洲办公室开到第六个,这次还拉上了教皇背书,但更实在的是 Satispay 用 Claude 把 18 个月路线图砍到 7 个月的落地案例,对企业怎么做 AI 落地有参考价值。

Anthropic 行业动态
AI HOT ·

"了解评估如何设计的模型"得分更安全

21:29 HuggingFace Daily Papers(社区热门论文) 精选 70 AI安全评估的有效性依赖于模型在受控与部署环境下行为一致。研究提出“评估元知识”概念,指模型通过训练数据(如描述评估实践的科学文章或社交媒体)隐性习得对评估结构特征(如可验证结构或道德困境)的认知。在六个安全基准上的测试表明,经过合成文档微调后的模型,其安全评分显著高于基础模型与控制模型,即使排除明确表达评估意识的回答,这种行为偏移依然存在。这表明评估元知识可能导致安全基准分数虚高,成为独立于显式记忆或语言化评估意识之外的新干扰因素,对安全评估的设计和解读有重要影响。 arXiv 安全/对齐 论文/研究 推荐理由: 这个发现让我有点后背发凉——模型可能靠‘知道自己在被测评’来变得更安全,而不是真的安全。这对所有安全排行榜都是个新级别的混淆,评估设计得加一层元认知检测了。

arXiv 安全/对齐 论文/研究
AI HOT ·

OpenClaw 2026.5.27 已上线 🦞 🔒 更严格的运行时/安全边界 ⚡ 更快的网关 + 回复路径 🧠 更稳定的 Codex/应用服务器内存 📡 更好的频道、提供商、Pixverse 视频 更少阻碍,更多掌控。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.27

21:36 OpenClaw🦞 @ openclaw 精选 64 智能体 产品更新 部署/工程 推荐理由: OpenClaw 这次更新把精力放在内存稳定性和网关提速上,对日常跑 agent 的开发者是个踏实的迭代,属于「修路不造车」的版本,该升就升。

智能体 产品更新 部署/工程
AI HOT ·

昨夜。一部完全由AI生成的短片,通过破碎记忆的视角,探索了在东京改变人生的一个夜晚。由一人使用Runway在一天内创作完成。 这是Project Luxo的一部分:一个探索AI生成视频如何跨越恐怖谷的新项目。 通过下方链接了解更多关于《昨夜》和Project Luxo的信息。

22:07 Runway @ runwayml 精选 64 产品更新 视频 推荐理由: Runway 用单人一天做出的短片展示 AI 视频已跨过恐怖谷,这比任何 benchmark 都直观,做视频的人值得看看这到底有多真。

产品更新 视频
AI HOT ·

提示:您可以为支持的模型(OpenAI、Google Vertex 等)使用 Flex 和 Priority 层级。 定价信息请查看各模型页面。文档:https://openrouter.ai/docs/guides/features/service-tiers

23:05 OpenRouter @ OpenRouter 精选 69 Google OpenAI 教程/实践 部署/工程 推荐理由: OpenRouter 这个 Flex/Priority 层级用法看似细枝末节,但你如果同时调 OpenAI 和 Vertex,知道怎么分层能免掉很多无谓的速率限制和成本焦虑。

Google OpenAI 教程/实践 部署/工程
AI HOT ·

Anthropic 最新估值:9650亿美元 最新年化营收:470亿美元(2025年底为90亿美元) 距离1万亿美元仅一步之遥

02:14 Chubby♨️ @ kimmonismus 精选 82 Anthropic : We've raised $65 billion in Series H funding at a $965 billion post-money valuation, led by @AltimeterCap, Dragoneer, @G... Anthropic 行业动态 推荐理由: Anthropic 半年 ARR 从 9B 飙到 47B,这增速让去年所有预测都成了笑话。万亿估值不是终点而是新起点,Claude 的护城河正在变成现金流。 01:52 Replit ⠕ @ Replit 精选 64 如何用四步保障你的vibecoded应用安全 🔒 速度若无安全加持,便是隐患。以下是使用Replit发布应用时,如何避免留下后门的方法。 🧵展开阅读 ↓ 教程/实践 部署/工程 推荐理由: 对于用 Replit vibecoding 快速出活的产品人,这是基础安全 checklist,没太多新东西但值得一看,免得部署后留后门。 01:42 Google AI Developers @ googleaidevs 精选 71 🍌 Nano Banana Pro 【gemini-3-pro-image】 和 Nano Banana 2 【gemini-3.1-flash-image】 现已正式发布,可通过 Gemini API 投入生产使用。查看这些优秀的社区示例,了解两个模型的实际能力 🧵↓ Google 图像生成 模型发布 推荐理由: Google 把 Gemini 图像生成能力打包进 Nano Banana 系列并正式 GA,开发者现在可以稳定调用 Pro 和 Flash 级别的生图 API,对做图像应用的团队是个实在利好。 01:21 Claude:Blog(网页) 精选 78 在Claude Code中引入动态工作流 Claude Code 推出“动态工作流”功能,使 Claude 能端到端处理复杂任务。该功能通过动态编写脚本,在单个会话中并行运行数十到数百个子智能体来完成工作,并会在结果呈现前进行验证。它适用于跨代码库的 bug 查找、大规模迁移(如将 Bun 从 Zig 移植到 Rust)等需要多角度分析的任务。该功能现已在研究预览阶段可用,支持 Claude Code CLI、桌面端、VS Code 扩展以及 API、Amazon Bedrock、Vertex AI 等平台,面向 Max、Team 及已启用的 Enterprise 计划用户。 智能体 Anthropic 产品更新 编码 关联讨论 1 条 X:Claude Devs (@ClaudeDevs) 推荐理由: 动态工作流第一次让 Claude Code 能独立搞定需要并行协调的大规模工程任务,B

Anthropic 行业动态 教程/实践 部署/工程 Google 图像生成 模型发布 智能体 产品更新 编码 推理 论文/研究 MCP/工具 大佬观点 OpenAI 安全/对齐 政策/监管 Microsoft 多模态
AI HOT ·

DenoiseRL:通过恢复嘈杂前缀来引导推理模型

14:28 HuggingFace Daily Papers(社区热门论文) 精选 71 DenoiseRL是一种强化学习框架,旨在提升大语言模型的推理能力。它无需依赖更强的教师模型或精心筛选的困难数据集,而是通过在弱模型产生的失败推理轨迹上进行基于恢复的优化来直接学习,将错误转化为改进机会。这种方法提供了更丰富多样的学习信号,提升了探索效率。实验表明,DenoiseRL在竞争性的数学和通用推理基准测试中,持续优于强在策略RL基线,并能随着训练难度增加促进更强的自我纠正行为。 推理 数据/训练 论文/研究 推荐理由: 做 RL for reasoning 的团队该看这篇,它把训练信号从“依赖强模型”转向“从弱模型的错误中学习”,可能降低对昂贵 teacher 的依赖,是个架构层面的新思路。

推理 数据/训练 论文/研究
AI HOT ·

pgvector驱动的语义、混合、稀疏与量化向量搜索系统构建编码指南

16:10 MarkTechPost(RSS) 精选 70 本教程在Google Colab中构建一个完整的pgvector实验环境,展示PostgreSQL如何作为向量数据库服务于现代AI应用。内容涵盖安装PostgreSQL、编译pgvector扩展、通过Psycopg建立连接,并注册向量类型以实现与Python的平滑集成。最后使用SentenceTransformers创建并存储嵌入向量。 检索增强 开源生态 教程/实践 部署/工程 推荐理由: 这份教程把 pgvector 的稀疏向量、量化搜索等高级功能打包成 Colab 代码,用 PostgreSQL 做向量数据库的团队可以直接复制粘贴跑起来。

检索增强 开源生态 教程/实践 部署/工程
AI HOT ·

可灵AI将在AI电影节展示20部4K原创短片

16:11 Kling AI @ Kling_ai 精选 62 可灵AI将在全球最大AI影视会议AI on the Lot的社区日上,展示由Prompt Club的电影制作人创作的20部原创AI短片。所有短片均为原生4K分辨率,旨在探索AI电影的边界。该展示将于5月29日在加州卡尔弗市的卡尔弗剧院举行。 多模态 行业动态 视频 推荐理由: 世界最大AI影展上,Kling直接拿20部原生4K短片说话,比任何Demo都更有说服力,做AI影视的值得盯着这批片子看。

多模态 行业动态 视频