AI and technology watch

AI 快讯

聚合 24 小时内的人工智能与开发者生态动态,保留来源链接方便继续阅读。

---
AI HOT ·

提示:您可以为支持的模型(OpenAI、Google Vertex 等)使用 Flex 和 Priority 层级。 定价信息请查看各模型页面。文档:https://openrouter.ai/docs/guides/features/service-tiers

23:05 OpenRouter @ OpenRouter 精选 69 Google OpenAI 教程/实践 部署/工程 推荐理由: OpenRouter 这个 Flex/Priority 层级用法看似细枝末节,但你如果同时调 OpenAI 和 Vertex,知道怎么分层能免掉很多无谓的速率限制和成本焦虑。

Google OpenAI 教程/实践 部署/工程
AI HOT ·

Anthropic 最新估值:9650亿美元 最新年化营收:470亿美元(2025年底为90亿美元) 距离1万亿美元仅一步之遥

02:14 Chubby♨️ @ kimmonismus 精选 82 Anthropic : We've raised $65 billion in Series H funding at a $965 billion post-money valuation, led by @AltimeterCap, Dragoneer, @G... Anthropic 行业动态 推荐理由: Anthropic 半年 ARR 从 9B 飙到 47B,这增速让去年所有预测都成了笑话。万亿估值不是终点而是新起点,Claude 的护城河正在变成现金流。 01:52 Replit ⠕ @ Replit 精选 64 如何用四步保障你的vibecoded应用安全 🔒 速度若无安全加持,便是隐患。以下是使用Replit发布应用时,如何避免留下后门的方法。 🧵展开阅读 ↓ 教程/实践 部署/工程 推荐理由: 对于用 Replit vibecoding 快速出活的产品人,这是基础安全 checklist,没太多新东西但值得一看,免得部署后留后门。 01:42 Google AI Developers @ googleaidevs 精选 71 🍌 Nano Banana Pro 【gemini-3-pro-image】 和 Nano Banana 2 【gemini-3.1-flash-image】 现已正式发布,可通过 Gemini API 投入生产使用。查看这些优秀的社区示例,了解两个模型的实际能力 🧵↓ Google 图像生成 模型发布 推荐理由: Google 把 Gemini 图像生成能力打包进 Nano Banana 系列并正式 GA,开发者现在可以稳定调用 Pro 和 Flash 级别的生图 API,对做图像应用的团队是个实在利好。 01:21 Claude:Blog(网页) 精选 78 在Claude Code中引入动态工作流 Claude Code 推出“动态工作流”功能,使 Claude 能端到端处理复杂任务。该功能通过动态编写脚本,在单个会话中并行运行数十到数百个子智能体来完成工作,并会在结果呈现前进行验证。它适用于跨代码库的 bug 查找、大规模迁移(如将 Bun 从 Zig 移植到 Rust)等需要多角度分析的任务。该功能现已在研究预览阶段可用,支持 Claude Code CLI、桌面端、VS Code 扩展以及 API、Amazon Bedrock、Vertex AI 等平台,面向 Max、Team 及已启用的 Enterprise 计划用户。 智能体 Anthropic 产品更新 编码 关联讨论 1 条 X:Claude Devs (@ClaudeDevs) 推荐理由: 动态工作流第一次让 Claude Code 能独立搞定需要并行协调的大规模工程任务,B

Anthropic 行业动态 教程/实践 部署/工程 Google 图像生成 模型发布 智能体 产品更新 编码 推理 论文/研究 MCP/工具 大佬观点 OpenAI 安全/对齐 政策/监管 Microsoft 多模态
AI HOT ·

DenoiseRL:通过恢复嘈杂前缀来引导推理模型

14:28 HuggingFace Daily Papers(社区热门论文) 精选 71 DenoiseRL是一种强化学习框架,旨在提升大语言模型的推理能力。它无需依赖更强的教师模型或精心筛选的困难数据集,而是通过在弱模型产生的失败推理轨迹上进行基于恢复的优化来直接学习,将错误转化为改进机会。这种方法提供了更丰富多样的学习信号,提升了探索效率。实验表明,DenoiseRL在竞争性的数学和通用推理基准测试中,持续优于强在策略RL基线,并能随着训练难度增加促进更强的自我纠正行为。 推理 数据/训练 论文/研究 推荐理由: 做 RL for reasoning 的团队该看这篇,它把训练信号从“依赖强模型”转向“从弱模型的错误中学习”,可能降低对昂贵 teacher 的依赖,是个架构层面的新思路。

推理 数据/训练 论文/研究
AI HOT ·

pgvector驱动的语义、混合、稀疏与量化向量搜索系统构建编码指南

16:10 MarkTechPost(RSS) 精选 70 本教程在Google Colab中构建一个完整的pgvector实验环境,展示PostgreSQL如何作为向量数据库服务于现代AI应用。内容涵盖安装PostgreSQL、编译pgvector扩展、通过Psycopg建立连接,并注册向量类型以实现与Python的平滑集成。最后使用SentenceTransformers创建并存储嵌入向量。 检索增强 开源生态 教程/实践 部署/工程 推荐理由: 这份教程把 pgvector 的稀疏向量、量化搜索等高级功能打包成 Colab 代码,用 PostgreSQL 做向量数据库的团队可以直接复制粘贴跑起来。

检索增强 开源生态 教程/实践 部署/工程
AI HOT ·

可灵AI将在AI电影节展示20部4K原创短片

16:11 Kling AI @ Kling_ai 精选 62 可灵AI将在全球最大AI影视会议AI on the Lot的社区日上,展示由Prompt Club的电影制作人创作的20部原创AI短片。所有短片均为原生4K分辨率,旨在探索AI电影的边界。该展示将于5月29日在加州卡尔弗市的卡尔弗剧院举行。 多模态 行业动态 视频 推荐理由: 世界最大AI影展上,Kling直接拿20部原生4K短片说话,比任何Demo都更有说服力,做AI影视的值得盯着这批片子看。

多模态 行业动态 视频
AI HOT ·

Qwen3.7-Max 以 77.3B tokens 的使用量登顶 @OpenRouter 热门大语言模型榜单。 而我们才刚刚开始。 👇 https://int.alibabacloud.com/m/1000413314/

17:07 Alibaba Cloud @ alibaba_cloud 精选 73 开源生态 模型发布 行业动态 推荐理由: Qwen3.7-Max 在 OpenRouter 上跑出 77.3B tokens 登顶,这不只是个排名数字,而是国产开源模型第一次用实际用量证明自己,做应用的可以认真考虑一下了。

开源生态 模型发布 行业动态
AI HOT ·

在阿里云市场遇见 MuleRun--一个全天候的AI劳动力,用于研究、报告、代码、设计等。功能强大,适合个人使用;企业就绪,适合团队协作--支持SSO、RBAC、私有网络、团队知识管理和无缝集成。 想得更大。让 MuleRun 处理其余事务。 方案起价 $20/月 → https://int.alibabacloud.com/m/1000413520/ #AlibabaCloud #AIAgents #AIWorkforce #FutureOfWork #EnterpriseAI

10:36 Alibaba Cloud @ alibaba_cloud 精选 71 智能体 产品更新 部署/工程 推荐理由: 又一个All-in-one AI助手,但亮点在于企业级特性(SSO、RBAC)和$20起的定价,个人开发者也能玩,可以观望下是不是又一个Jasper。

智能体 产品更新 部署/工程
AI HOT ·

英伟达推出 AI 框架 Polar,让 Codex 跑分暴涨 594.74%

11:15 IT之家(RSS) 精选 73 英伟达研究团队开源了智能体强化学习框架 Polar。该框架无需重写现有智能体执行框架(如 Codex CLI、Claude Code、Qwen Code、Pi),通过在模型 API 边界放置智能体来接入 GRPO 训练。实验显示,基于 Qwen3.5-4B 模型,Polar 将 Codex 在 SWE-Bench Verified 上的 pass@1 分数从 3.8% 提升至 26.4%(增涨 594.74%)。效率上,其 prefix_merging 技术将训练步骤从 1185 次降至 218 次,速度提升约 5.39 倍,GPU 平均利用率从 20.4% 升至 87.7%。 开源/仓库 推理 编码 推荐理由: Polar 把 Codex 的 SWE-Bench 分数从 3.8% 拉到 26.4%,不是靠新模型而是靠训练框架,做代码 agent 的团队可以直接用,开源即拿即训。

开源/仓库 推理 编码
AI HOT ·

VibeSearchBench:面向真实世界中长期主动搜索的评测基准

11:28 HuggingFace Daily Papers(社区热门论文) 精选 70 基于LLM的智能体在现有搜索基准上表现优异,但真实用户体验不佳,这源于现有基准依赖于高度明确的查询、单轮交互和固定格式评估,无法反映用户与智能体通过多轮对话协同澄清模糊意图的真实搜索行为。为此,研究提出了“VibeSearch”范式并发布了VibeSearchBench,该基准包含200个手工策划的双语任务,覆盖20个领域,分为专业与日常生活两个子集。评估通过用户模拟器和图匹配框架进行。对七个前沿模型的测试显示,所有模型在VibeSearch任务上表现均不充分(最佳F1分数为30.30),凸显了在长期上下文推理、主动意图激发等方面取得根本进展的必要性。 arXiv 推理 搜索 论文/研究 推荐理由: 所有前沿模型在长程主动搜索上都翻车了,最高F1才30,说明现在AI离真正理解你的模糊需求还有距离,做搜索的同学该重新想想架构了。

arXiv 推理 搜索 论文/研究
AI HOT ·

🚀 认识 DataWorks Data Agent--阿里云的AI数据智能体! 借助AI简化数据工作流,加速洞察,让数据管理更智能。 了解更多:https://int.alibabacloud.com/m/1000413560/ #AlibabaCloud #DataWorks #AI #DataAgent #BigData #DataAnalytics

11:36 Alibaba Cloud @ alibaba_cloud 精选 66 智能体 产品更新 推荐理由: 阿里云推出 DataWorks Data Agent,把 AI agent 塞进数据管线,做数据工程的同学可以用更自然的方式管数据了,但怎么定价、跟现有 DataWorks 怎么衔接,还得看细节。

智能体 产品更新
AI HOT ·

OpenRouter 获得1.13亿美元B轮融资

12:41 OpenRouter:Announcements(RSS) 精选 72 AI模型聚合平台OpenRouter宣布完成1.13亿美元B轮融资。本轮融资由CapitalG领投,NVentures、ServiceNow Ventures等多家机构参投,现有投资者Andreessen Horowitz与Menlo Ventures也参与了本轮融资。 行业动态 部署/工程 推荐理由: OpenRouter 融了 1.13 亿美元,说明模型路由从「小工具」变成正经防线了,开发者选模型不再单一绑定,这个方向钱和战略意义都上来了。

行业动态 部署/工程
AI HOT ·

用好 Coding Agent,重点是两头,尤其是开头的部分,如果一开始就走偏了后面怎么改都改不好。

07:30 宝玉 @ dotey 精选 75 用好 Coding Agent 的关键在于初始规划。方法是先将需求整理后,用最强模型(如 GPT-5.5、Claude Opus 4.7)分别在 Codex、Claude Code、Cursor 的 Plan 模式下生成设计方案,选择最优方案并借鉴其他版本。对于复杂计划,可将其拆分为多个 Phases 并明确要求与验证标准,形成 Markdown 文档。执行时按 Phases 进行,并辅以人工审核纠偏。最后的代码审核(Code Review)用 GPT-5.5 审核代码质量与设计符合度即可。应避免让多个智能体交叉 Review,否则可能导致代码越改越多。 akazwz : 让不同的 agent 交叉 review 的后果就是代码越改越多。。。 智能体 教程/实践 编码 推荐理由: 宝玉这套多Agent交叉设计Plan、人拍板、便宜模型执行的流程,是我见过最务实的Coding Agent实践,做开发的直接套用就行。

智能体 教程/实践 编码
AI HOT ·

人民日报专访华为何庭波:今年秋季的新麒麟手机芯片,性能等相比去年是"跳跃性"提升

10:14 IT之家(RSS) 精选 74 华为何庭波提出半导体新演进路径“韬(τ)定律”,以“时间缩微”(如逻辑折叠)替代“几何缩微”作为新指导原则。她表示,过去6年华为已基于此自主研发381款芯片。今年秋季将发布新的麒麟手机芯片,这是首个完整的“韬芯片”,其性能、集成度相比去年是“跳跃性”提升。 大佬观点 端侧 推荐理由: 华为提出「韬定律」替代摩尔定律,不是空谈,何庭波说新麒麟芯片性能跳跃提升,证明了这条路的可行性。对半导体行业是一次认知冲击。

大佬观点 端侧
AI HOT ·

使用大语言模型保障源代码安全

06:07 Claude:Blog(网页) 精选 77 本文分享了使用 Claude Opus 构建威胁模型、发现代码漏洞并进行验证、分类和修复的最佳实践。其核心流程是一个六步循环:威胁建模、沙箱隔离、漏洞发现、验证、分类和修复。作者指出,漏洞发现现在易于并行化,瓶颈已转移到后续的验证与处理阶段。以他们对开源软件的扫描为例,截至2026年5月22日已披露1,596个漏洞,其中97个已修补。指南建议结合代码库文档和专家访谈来构建准确的威胁模型,以降低误报,提升发现的可利用性。 智能体 Anthropic 安全/对齐 教程/实践 推荐理由: Anthropic把这套用Claude扫代码漏洞的方法全公开了,1596个已披露漏洞,验证成了最大瓶颈,安全工程师的饭碗可能要重新定义。

智能体 Anthropic 安全/对齐 教程/实践
AI HOT ·

思科与OpenAI携手Codex重新定义企业工程

06:13 OpenAI:官网动态(RSS · 排除企业/客户案例) 精选 60 思科正与OpenAI合作,利用Codex重新定义企业工程实践。此次合作旨在帮助思科扩展AI原生开发能力、加速其AI Defense安全工作,并实现缺陷修复流程的自动化。 OpenAI 编码 行业动态 推荐理由: 这则合作公告虚得很,看不出Codex到底怎么帮Cisco重构工程,也没什么数据,属于看完标题就够了的那种。

OpenAI 编码 行业动态
AI HOT ·

社会科学中的编码智能体

07:07 Anthropic:Research(发表成果 · 网页) 精选 68 一项针对1260名定量社会科学家的调查显示,虽然81%的受访者用过AI聊天机器人,但仅有20%将Claude Code、Codex等编码智能体常规应用于工作。采用率存在显著差异:以男性名字命名的研究者使用率是女性研究者的两倍;顶尖大学研究者可能性高出40%。用户产出更多工作论文和基金申请,但这可能反映早期采用者自身差异。研究者对AI助力撰写可发表论文更乐观,但对重塑整个社会科学领域持保留态度。这是一项初步调查,更深入研究仍在进行中。 智能体 Anthropic 数据/训练 论文/研究 推荐理由: Anthropic 这份调查把编码代理在社科领域的真实渗透率摸清了,只有 20% 的研究者真在用,而且男女、校际差距比 AI 聊天工具大得多,做学术工具的可以认真看看。

智能体 Anthropic 数据/训练 论文/研究
AI HOT ·

Cognition成为全球最大独立智能体实验室

03:23 swyx @ swyx 精选 75 Cognition宣布已成为全球最大的独立智能体实验室。公司完成超10亿美元融资,估值达260亿美元,由Lux Capital、General Catalyst等领投。其企业使用量自年初增长超10倍,年化收入增至4.92亿美元。Cognition于两年前推出Devin,定位为首个AI软件工程师。公司强调其拥有多项领先优势,包括首个编码智能体、顶级代码审查能力等,并得到了Peter Thiel的重大投资。 Cognition : 1/ We've raised over $1B at a $26B valuation, led by @Lux_Capital, @generalcatalyst, and @8vc. Our enterprise usage has ... 智能体 行业动态 关联讨论 1 条 X:Rohan Paul (@rohanpaul_ai) 推荐理由: Devin 母公司 Cognition 完成 10 亿美元融资,估值 260 亿,年度经常性收入近 5 亿美元,这是 agent 赛道从故事走向现金流的拐点,swyx 对「first mover 加两年规模化」的分析比数据本身更有看点。

智能体 行业动态
AI HOT ·

软件之后是AI时代

03:33 Tomer Tunguz 博客(VC 分析) 精选 61 软件时代正过渡至“智能体框架”时代。AI作为强大但需驯化的“野马”,其智能驯化包含七个核心组成部分:上下文与记忆、工具与行动、编排与循环、状态与持久性、沙箱与计算、可观测性与治理、成本与工作流优化。这些组件共同构成了一个生产级的智能体系统。这一转变将重塑软件竞争格局,模型通用化的未来中,最佳的智能体驾驭者将获胜。 智能体 MCP/工具 现象/趋势 推荐理由: Tomer 把 agent 时代的竞争拆成七个组件,不是空谈,而是给了创业公司一个具体的 check-list,做 agent 产品的值得对照一下。

智能体 MCP/工具 现象/趋势
AI HOT ·

SilverTorch:索引即模型--推荐系统的新检索范式

04:19 Meta Engineering Blog(RSS) 精选 68 Meta 推出SilverTorch推荐系统架构,统一了用户生成内容的所有检索组件。该架构吞吐量比现有技术高23.7倍,计算成本效率比CPU方案高20.9倍,同时提升了准确性。 Meta 搜索 论文/研究 推荐理由: SilverTorch 把索引本身变成模型,在推荐检索上拿到 23 倍吞吐提升,这个思路对搜索和推荐工程师都有启发,虽然离普通人有点远。

Meta 搜索 论文/研究