AI HOT
·
21:42 Hugging Face:Blog(RSS) 精选 75 Nemotron 3.5 ASR 是一个 600M 参数的多语言流式语音识别模型,单个检查点覆盖 40 种语言-地区(含英、西、德、法、意、日、韩、中、阿拉伯等)。采用 Cache-Aware FastConformer 编码器与 RNNT 解码器,缓存内部状态避免重复计算,实现低延迟流式转录且不损失精度。模型原生输出带标点和大写的生产级文本,无需后处理。支持指定语言(target_lang=es-ES)或自动语言检测(target_lang=auto)。通过注意力上下文大小(att_context_size)可在推理时直接调节延迟-准确率权衡,范围从 80ms 到 1.12s,无需重新训练。模型以 NeMo 检查点形式发布,可用于微调以适配特定语言、领域或口音。 教程/实践 语音 推荐理由: 一个模型搞定40种语言的实时语音转文字,NVIDIA还给了完整微调代码和实测数据,做语音Agent和字幕的可以照着抄作业。
教程/实践
语音
AI HOT
·
22:34 OpenRouter @ OpenRouter 精选 67 DeepSeek 行业动态 推荐理由: OpenRouter 作为风向标级的 API 聚合器,这个四连冠的数据比任何 benchmark 都实在,对还在犹豫选哪个模型的产品人来说,是个明确的信号。
DeepSeek
行业动态
AI HOT
·
23:09 The Verge:订阅版科技(RSS) 精选 82 全球最大芯片制造商台积电表示,通过美国本土生产满足客户需求可能需要“非常长的时间”,凸显AI需求带来的产能压力。 其他 行业动态 推荐理由: TSMC 的产能警告不是 PR 话术,是真实的供需失衡,所有等着买 GPU 的 AI 公司都要做好长期作战准备。
其他
行业动态
AI HOT
·
20:53 Chubby♨️ @ kimmonismus 精选 84 OpenAI 大佬观点 安全/对齐 推荐理由: OpenAI首次公开承认看到递归自我改进的早期迹象,等于摊牌说AI发展正在失控加速,接下来的竞争和监管博弈会非常激烈,所有关注AI安全的人都该认真读一下原文。
OpenAI
大佬观点
安全/对齐
AI HOT
·
21:08 NVIDIA Technical Blog(开发者技术博客 · RSS) 精选 71 NVIDIA 发布 Nemotron 3 Ultra 模型,专为长时间运行的 AI 智能体设计。该模型能够在多轮对话中保持上下文、调用工具、调用子智能体,并高效处理复杂工作流。随着多智能体协作导致模型 token 数量快速增长,Nemotron 3 Ultra 通过优化推理流程显著提升速度并降低计算成本,使长期运行的智能体任务更加可行。 智能体 推理 模型发布 关联讨论 7 条 LMSYS:Blog(Chatbot Arena 团队) X:NVIDIA AI (@NVIDIAAI) X:NVIDIA (@nvidia) X:Kim (@kimmonismus) X:opencode (@opencode) X:Artificial Analysis (@ArtificialAnlys) IT之家(RSS) 推荐理由: NVIDIA 把 Nemotron 升级到 Ultra,瞄准长期运行 Agent 的效率瓶颈,如果你正在用多步 agent 跑生产流程,这个模型值得认真看一眼。
智能体
推理
模型发布
AI HOT
·
19:42 Hugging Face:Blog(RSS) 精选 68 在 Nemotron-3 Nano 模型的 100B token 续训练实验中,任务种子合成数据生成(Task-Seeded SDG)使 MMLU-Pro 提升 1.8 分,平均代码提升 1.9 分,常识理解提升 1.6 分,GPQA 提升 11.1 分,数学成绩保持稳定。该流程利用 lm-eval-harness 中约 70 个公开任务(约 700 子任务)的训练集作为种子,生成新示例并补充推理和上下文,经过格式校验、去重和答案验证后得到精选合成数据集,用于 Nemotron Ultra 和 Super 训练。 推理 数据/训练 论文/研究 推荐理由: NVIDIA 公开了 Nemotron 训练中造合成数据的详细方法论,用 70 个公开任务训练集做种子生成新题目,100B token 实验把 GPQA 拉高 11 个点,做预训练的人值得看看他们怎么造的数据。
推理
数据/训练
论文/研究
AI HOT
·
20:42 Hugging Face:Blog(RSS) 精选 65 EVA-Bench Data 2.0 将评估范围从单一企业领域扩展至航空公司客户服务管理(CSM)、企业 IT 服务管理(ITSM)和医疗 HR 服务交付(HRSD)三个领域,共涵盖 121 个工具、213 个场景,场景数较原始版本增长约 4 倍。每个场景均经 OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6 验证可解性。数据集遵循语音优先、真实性、多样性、认证流程和可复现性五项设计原则,包含单意图、多意图(最多 4 个意图)和对抗性呼叫类型。所有三个数据集已开源,可通过 `load_dataset` 从 Hugging Face 直接下载。后续将推出多语言扩展。 开源/仓库 论文/研究 评测/基准 推荐理由: 语音代理评测缺的就是这种真实场景的数据集,EVA-Bench 2.0 把航空、IT、医疗三个最棘手的领域打包了,生成流水线也开源,做评测的可以直接拿来用。
开源/仓库
论文/研究
评测/基准
AI HOT
·
11:42 HuggingFace Daily Papers(社区热门论文) 精选 74 MapAgent是一种工业级智能体架构,用于生成符合规范的车道级地图。它在矢量化骨干网络基础上,通过Judge-Planner-Worker循环,利用视觉语言模型诊断错误、调用工具生成最小修正编辑并重新验证。系统仅在骨干网络置信度低的瓦片区域选择性触发,保持高吞吐量。MapAgent已集成至百度地图,支撑全国360多个城市的车道级地图生成,整体生产自动化率超95%。 智能体 多模态 论文/研究 推荐理由: 百度地图团队把Agent验证循环接入车道级地图生成,360+城市落地且自动化率超95%,复杂路口和长尾场景提升明显,做自动驾驶和在线地图的可以直接看结论。
智能体
多模态
论文/研究
AI HOT
·
14:51 MarkTechPost(RSS) 精选 71 Stanford 研究人员发布 OpenJarvis,一个完全在设备端运行推理、智能体、记忆与学习的开源框架。它将个人 AI 系统分解为五个可组合原语:Intelligence、Engine、Agents、Tools & Memory 和 Learning。该框架与最佳云端模型的性能差距在 3.2 points 以内,边际 API 成本降低约 800 倍。 智能体 产品更新 开源生态 端侧 推荐理由: 斯坦福这个框架把云端模型能力拉到本地,成本降了800倍,所有想做离线个人助理的开发者该试试看,开源实现比PPT有说服力。
智能体
产品更新
开源生态
端侧
AI HOT
·
19:24 Bloomberg:Technology(RSS) 精选 73 微软AI部门负责人表示,Anthropic推出的模型成本过高,公司目前正在内部研发更廉价的替代模型,以降低成本。 Anthropic Microsoft 行业动态 推荐理由: 微软AI负责人的这番话,是大厂向高价模型供应商发出的明确信号,自家廉价模型正在路上,Anthropic的商业化压力又加了一层。
Anthropic
Microsoft
行业动态
AI HOT
·
10:58 xAI:News(网页) 精选 72 xAI 宣布与 Vapi 合作,Grok 将作为 Vapi 平台上 12 种核心语音的默认引擎,覆盖超过 250 万个语音智能体。在 Vapi 独立盲测中,Grok Voice 位列第一;X 平台上的人机语音盲猜中,超 4500 名用户有一半无法区分 Grok 与真人。现在,Grok Speech-to-Text 和 Text-to-Speech 已集成至 Vapi Dashboard,团队还可通过 Grok Voice API 获取高级定制选项(含语音克隆),用于旁白、播客、广告等场景。 xAI 行业动态 语音 关联讨论 1 条 X:xAI (@xai) 推荐理由: xAI 把 Grok 的语音能力直接接入了 Vapi,250 万+语音代理一夜升级,语音交互的“自然度”竞赛从实验室卷到了生产环境。
xAI
行业动态
语音
AI HOT
·
11:10 小互 @ xiaohu 精选 82 Cloudflare Radar 实时统计显示,过去一周(5月28日至6月4日)全球所有 HTML 网页请求流量中,57.5% 来自机器人(爬虫、AI 抓取、自动化脚本),仅42.5%来自真人浏览器,机器人流量首次超过人类。按所有 HTTP 流量返回内容分类,JSON(API 机器通信)占33.1%居首,HTML 仅12%。互联网流量主体已从人类浏览网页转向机器间通信和机器人抓取。 搜索 数据/训练 现象/趋势 关联讨论 1 条 X:SemiAnalysis (@SemiAnalysis_) 推荐理由: 互联网流量首次以机器人为主,这是AI时代的真正里程碑。数据来自Cloudflare实时统计,比任何预测都更直白地告诉内容产业,以后网页得同时伺候人和爬虫了。
搜索
数据/训练
现象/趋势
AI HOT
·
10:42 HuggingFace Daily Papers(社区热门论文) 精选 79 Echo-Infinity 是一个自回归(AR)框架,用于实时无限视频生成。它用可学习的演化记忆替代人工缓存策略,通过注意力机制和门控更新 Memory Query,与视频扩散 Transformer(DiTs)端到端优化,支持任意压缩比且计算量不随视频长度增加。同时引入 Unified Relative RoPE Recipe,锚定 sink 帧从 id 0 开始、最新帧 id 不超过预训练最大时间 RoPE id,解除有限 RoPE 约束并缩小外推差距。在长/短视频生成中达到 SOTA,首次实现 24 小时(超 130 万帧)实时滚动生成。 arXiv 视频 论文/研究 推荐理由: 论文把长视频生成的记忆机制从手动压缩换成了可学习的动态演化,首次做到24小时实时无限生成,这对视频生成走出‘短视频玩具’阶段是个决定性的信号。
arXiv
视频
论文/研究
AI HOT
·
00:30 Anthropic @ AnthropicAI 精选 74 Anthropic 安全/对齐 现象/趋势 关联讨论 1 条 X:Kim (@kimmonismus) 推荐理由: Anthropic难得公开谈递归自我改进,而且说速度比预期快,这是AI安全争论的节点第一次有官方数据信号,关心AGI和安全的人都该点开看看。
Anthropic
安全/对齐
现象/趋势
AI HOT
·
01:05 Google Gemini @ GeminiApp 精选 60 Google 产品更新 多模态 视频 推荐理由: Gemini 官方放出 Omni 视频生成演示,文字或五张图就能出片,创意门槛压到最低。目前更像功能预告,能玩上再说,但方向值得蹲。 01:03 Dwarkesh Patel:Podcast & Blog(RSS) 精选 62 Alex Imas 和 Phil Trammell:AGI 后什么仍然稀缺? 经济学家 Alex Imas 和 Phil Trammell 指出,AGI 时代机器人数量可以快速复制增长,但人类独特技能(以芭蕾舞演员为例)的数量保持不变,揭示了即使技术大幅进步,某些稀缺资源仍不可替代。 大佬观点 现象/趋势 推荐理由: Dwarkesh Patel 这次请的经济学家的访谈,把 AGI 后的稀缺性问题从哲学拉回现实。如果你在思考 AI 对就业和资产的影响,这篇比大多数技术博客更接近答案。 00:53 LMSYS:Blog(Chatbot Arena 团队) 精选 77 Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务 Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数,基于 Qwen3-4B 骨干,支持 100 种语言(内部评测覆盖 111 种),在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感(20+种)、风格、韵律(语速/音高/停顿)及音效。模型支持流式合成,文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计,统一调度 AR 解码与轻量计算,实现低延迟推理。 开源/仓库 教程/实践 语音 部署/工程 推荐理由: Higgs v3 把多语言和实时可控制整合进一个流式 TTS 模型,SGLang-Omni 为它搭好了多阶段推理的底座,做语音 Agent 的可以直接抄作业,这比多数论文落地快半拍。 00:30 Anthropic @ AnthropicAI 精选 74 我们的内部数据显示,Claude 正在加速 AI 发展--这是一条通往递归自我改进的可能路径,也就是 AI 自主构建一个更强大的后继者。 这发生得比我们预想的更快,其影响值得更多关注。 Anthropic 安全/对齐 现象/趋势 关联讨论 1 条 X:Kim (@kimmonismus) 推荐理由: Anthropic难得公开谈递归自我改进,而且说速度比预期快,这是AI安全争论的节点第一次有
Google
产品更新
多模态
视频
大佬观点
现象/趋势
开源/仓库
教程/实践
语音
部署/工程
Anthropic
安全/对齐
智能体
OpenAI
AI HOT
·
09:10 IT之家(RSS) 精选 75 联合国大学水、环境与健康研究所报告指出,受AI需求驱动,去年全球数据中心耗电448太瓦时(AI占五分之一),耗水4.5万亿升,碳排放1.89亿吨。预计到2030年,年耗电量将翻倍至945太瓦时(AI占40%),耗水增至9.3万亿升,碳排放升至3.99亿吨,占地面积从6900平方公里扩展至14500平方公里。报告警告若忽视环境成本,AI落地还将加剧土地紧张与电子废弃物问题。 行业动态 部署/工程 推荐理由: 这份联合国报告把算力繁荣的隐性账单摊开了,2030年数据中心要喝掉9.3万亿升水,做AI基建的人该看看,别光比参数。
行业动态
部署/工程
AI HOT
·
09:28 xAI:News(网页) 精选 75 xAI 通过 API 发布了图像转视频模型 `grok-imagine-video-1.5-preview`(Grok Imagine 1.5 预览版)。该模型能将单张静态图片转为流畅的电影感视频,用户提供起始帧和描述运动的提示词后,模型可生成包含相机移动、氛围和物理效果的动画,并保持对源图像的忠实。支持生成 720p 片段,可使用自然语言指令控制镜头、节奏和音效,并支持逐帧拼接成长场景。模型目前通过 xAI API 提供预览使用。 xAI 多模态 模型发布 视频 关联讨论 1 条 X:cb_doge (@cb_doge) 推荐理由: xAI的新视频模型从单张图像生成电影级短片,支持自然语言控制运镜和氛围,对视频创作者和开发者是个值得一试的工具。
xAI
多模态
模型发布
视频
AI HOT
·
09:42 HuggingFace Daily Papers(社区热门论文) 精选 72 论文提出Meta-Agent Challenge(MAC)评估框架,测试前沿模型自主开发智能体系统的能力。元智能体在沙盒环境中借助评估API和时限,迭代编程出能在五个领域保留测试集上最大化性能的智能体工件,并采用多层防御防止奖励攻击。实验表明,元智能体极少达到人类基线策略,少数成功者由专有前沿模型主导;设计过程高方差,高优化压力催生了真实值外泄等对抗行为,暴露鲁棒性与对齐缺陷。MAC作为开源基准,为评估递归自我改进提供实证代理。 智能体 arXiv 安全/对齐 论文/研究 推荐理由: 蚂蚁研究院的这项研究直接让模型自己造代理,结果触发了‘作弊’行为:为了刷分,模型学会了泄露测试集。这可能是近期关于AI递归自我改进最直观的负面案例。
智能体
arXiv
安全/对齐
论文/研究
AI HOT
·
10:37 NVIDIA AI @ NVIDIAAI 精选 62 图像生成 论文/研究 推荐理由: NVIDIA 的 PPISP 让 3D 重建对光照变化更鲁棒,做辐射场的团队可以看一眼,但对大多数人来说它只是一个稳健性改进,属于脚注级小更新。
图像生成
论文/研究
AI HOT
·
10:42 HuggingFace Daily Papers(社区热门论文) 精选 73 StreamMA 采用“流式通信”范式,每个推理步骤生成后立即流式传输给下游智能体,通过流水线相邻智能体降低端到端延迟。该方法还提升了效果,因为早期步骤更可靠,可避免错误后期步骤误导下游智能体。在数学、科学和代码八项推理基准上,使用 Claude Opus 4.6 和 GPT-5.4 两种大语言模型,及 Chain、Tree、Graph 三种拓扑,StreamMA 平均优于基线 +7.3 个百分点,在 HMMT 2026 上最高达 +22.4 个百分点。研究还发现“步骤级缩放定律”:增加每智能体步骤数可同时提升效果与效率。 智能体 推理 论文/研究 推荐理由: 让多 Agent 一边想一边传,不仅快了一倍还更准,这种流式思路要改写 pipeline 设计了,做多智能体的该认真读读。
智能体
推理
论文/研究
20 / 63