AI and technology watch

AI 新闻

聚合过去 24 小时 AI 与开发者生态动态，并提供来源链接以便深入阅读。

---

AI HOT · 2026-06-25 04:29

OpenAI ChatGPT 语音最大规模升级：双向AI语音模型 Bidi 1 已上线测试

12:42 IT之家（RSS）精选 74 6月23日，部分用户反馈 ChatGPT 网页版和 App 版上线了双向 AI 语音模型 Bidi 1，位于设置模型选择器中，与标准语音和高级语音并列。该模型支持边说话边监听，用户可在对话中途打断并发出新指令，例如要求从1数到10时中途喊停倒数，模型会立即切换执行。OpenAI 尚未官宣，预计本周启动更大范围测试。 OpenAI 多模态模型发布语音推荐理由： Bidi 1 让 ChatGPT 语音从回合制变成双向并行，打断后能立即响应，这是语音交互真正的升维，普通人很快就能感受到对话自然感的质变。

OpenAI 多模态模型发布语音

AI HOT · 2026-06-25 04:29

🥳感谢分享，@MLBoy_DaisukeMajima 🚀 MiniCPM-V 4.6 在设备上以这样的速度运行，实在令人印象深刻--尤其是在 Apple Core AI 上以不到 2B 参数跑出。干得漂亮，推动高效多模态 AI 向前发展。🫡

15:10 OpenBMB @ OpenBMB 精选 65 MLBoy_DaisukeMajima : 📸 MiniCPM-V 4.6 - one of the strongest vision models under 2B params - now runs at ~51 tok/s on iPhone 17 Pro via Apple... 多模态开源/仓库端侧推荐理由：社区把 MiniCPM-V 4.6 搬上 iPhone 17 Pro，跑出 51 tok/s，还给了代码和模型，做端侧多模态的可以直接跑起来了。

多模态开源/仓库端侧

AI HOT · 2026-06-25 03:22

AI招聘工具存在种族偏见和系统性排斥；黑人占比26%，亚裔占比15%

06:07 Hacker News 热门（buzzing.cc 中文翻译）精选 71 一项覆盖340万人、400万份申请、150家雇主和1700个职位的大规模实地研究发现，AI招聘筛选工具存在显著的种族歧视：26%的黑人申请者和15%的亚裔申请者遭遇算法对其族群的系统性排斥；若AI按推荐率最高群体（通常为白人）标准执行，将有4万份额外申请进入下一轮。多数雇主依赖同一第三方供应商算法，形成“算法单一文化”，导致10%提交4份申请者被所有职位拒绝。对比同期未用AI的招聘数据（8.3万份申请、108家财富500强企业），未发现此类模式。研究呼吁对算法招聘进行独立监管。安全/对齐现象/趋势论文/研究推荐理由：大规模实地研究揭示AI招聘存在显著种族偏见与系统性排斥，算法单一文化让同一批人被所有雇主拒绝，这是AI公平性领域近年最扎实的实证，做招聘产品的人和政策制定者都应该仔细读。

安全/对齐现象/趋势论文/研究

AI HOT · 2026-06-25 03:22

今天，豆包正式推出专业版

09:10 公众号：豆包（字节）精选 77 豆包专业版基于豆包2.1系列大模型上线，面向复杂办公与生产力场景。办公任务模式接入可执行Agent任务的豆包2.1模型，支持操作本地电脑、浏览器、调用Skills技能、定时任务，内置Office办公套件，并可生成带后端数据库的在线应用。免费用户可体验豆包2.1 Turbo版办公任务模式，专业版接入豆包2.1 Pro模型。定价：标准套餐68元/月（连续包月），加强套餐200元/月，高级套餐500元/月。大学生认证后标准套餐38元/月，持续6个月。智能体产品更新多模态推荐理由：豆包专业版不是简单的会员升级，而是把Agent能力装进办公场景，操作本地电脑、生成应用这些功能，让AI从对话工具变成了真正的生产力帮手。

智能体产品更新多模态

AI HOT · 2026-06-25 03:22

NatureBench：AI编码智能体能否匹配Nature系列论文已发表SOTA？

11:55 HuggingFace Daily Papers（社区热门论文）精选 70 NatureBench是一个跨学科基准测试，包含90个从Nature系列同行评审论文中提取的任务，用于评估AI编码智能体能否超越复现、实现发现。基准基于NatureGym自动化管线，为每个任务提供标准化容器化环境，解决环境碎片化问题。在严格禁用网络搜索的协议下评估10种前沿智能体配置，最强模型仅在17.8%任务上超过已发表SOTA（g>0.1准则）。分析表明，智能体成功主要依赖方法论翻译，失败主因为方法选择错误和计算预算不足。已发布基准、NatureGym管线及公共排行榜。智能体 GitHub 开源生态评测/基准推荐理由：这个基准把AI agent丢进Nature论文的复现池里游了一圈，发现最强的配置也只能在17.8%的任务上超越SOTA，而且靠的是方法翻译而非发明——对做科研agent的团队来说，既是冷水也是路线图。

智能体 GitHub 开源生态评测/基准

AI HOT · 2026-06-25 02:15

Seedance 4K。Seedance Mini。Kling 3.0 Turbo。现已推出。全球最佳模型，汇聚一处。使用优惠码 30RUNWAY，前三个月可享七折优惠。通过下方链接开始使用。

05:45 Runway @ runwayml 精选 72 产品更新视频推荐理由： Runway 一次性推出 Seedance 4K 等多个模型，视频生成画质再升级，对 Sora 等的追赶信号明显，做视频的可以直接上手试试。

产品更新视频

AI HOT · 2026-06-25 02:15

Anthropic 推出 Claude Tag：在 Slack 中通过 @Claude 协作

2 3 信源 · 23小时前

AI HOT · 2026-06-25 00:00

在 Transformers.js 中实验提议的跨源存储 API

02:26 Hugging Face：Blog（RSS）精选 64 Transformers.js 在浏览器中运行 AI 模型时，不同来源的 Web 应用会重复下载并缓存相同的模型资源（如 Xenova/whisper-tiny.en）和 Wasm 运行时文件（如 4,733 kB 的 ort-wasm-simd-threaded.asyncify.wasm），即使资源 URL 相同，浏览器因 Network Isolation Key 隔离缓存，单次 demo 就产生 177 MB 冗余下载和存储。Cross-Origin Storage API 是一项早期提案，旨在让跨来源应用共享缓存的模型和运行时资源。目前该 API 尚未在浏览器原生实现，但可通过 Chrome 扩展注入 polyfill 进行实验。 Hugging Face 开源生态教程/实践部署/工程推荐理由：这个Chrome提案让不同网站的AI模型共享缓存，对用Transformers.js的Web开发者是切实的性能改进，但还只是早期实验。

Hugging Face 开源生态教程/实践部署/工程

AI HOT · 2026-06-25 00:00

九位评委，两个有效投票：相关错误削弱LLM评审面板

02:50 Apple Machine Learning Research（RSS）精选 68 苹果机器学习研究团队发现，LLM-as-a-judge面板因模型间高度相关而严重受限。对7个模型家族的9个前沿大语言模型在3个自然语言推理数据集上的测试表明，9位评委实际仅提供约2个独立投票的信息量，面板准确率比独立投票理想值低8–22个百分点，最佳单一模型的表现已匹敌或超越整个面板。增加评委数量或改进聚合算法收效甚微，即使允许算法获取正确答案也仅能缩小至多11%的差距。该结论在多种提示变体、温度设置及偏好任务中均得到验证，瓶颈在于评委间的相关性而非聚合算法。论文/研究评测/基准推荐理由：这篇Apple论文揭示了一个反直觉的事实：在LLM评估面板中，9个法官实际上只提供约2个独立票的信息，因为模型会犯相似错误。这解释了为何简单聚合面板往往不如最佳单模型，做评估的团队必须重视法官相关性。

论文/研究评测/基准

AI HOT · 2026-06-25 00:00

FastWan-QAD：单卡5090上1.8秒生成5秒视频

03:21 Hao AI Lab @ haoailab 精选 73 Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列，基于 FastVideo 的量化感知蒸馏（QAD）方案训练。在单张 NVIDIA GeForce RTX 5090 上，端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。 GitHub Hugging Face 模型发布端侧推荐理由：单张 RTX 5090 上 1.8 秒生成 5 秒视频，把消费级延迟压到了‘即时生成’的临界点，做短视频和互动应用的开发者可以认真把这个模型放进技术栈。

GitHub Hugging Face 模型发布端侧

AI HOT · 2026-06-25 00:00

GitHub联合开源联盟呼吁修改加州AI透明度法案以保护开源

03:43 GitHub Blog 精选 56 GitHub 联合 Black Forest Labs、Hugging Face 与 Mozilla Corporation 组成开源联盟，呼吁对加州 AI 透明度法案（SB 942，拟由 SB 1000 修正）进行针对性修改。当前草案要求开发者在下游用户未履行义务时撤销开源许可证，这与开源许可证永久不可撤销的性质冲突。联盟认为该要求非必要，已有直接监管和执法机制，并建议参考欧盟 AI 法案的透明度实践规范，以向下游用户通知最佳实践文档的方式替代撤销条款。GitHub 支持这些修正，以在保持透明度目标的同时兼容开源开发模式。 GitHub 开源生态政策/监管推荐理由： GitHub 联合 Hugging Face 等开源玩家公开呼吁修正加州 AI 透明法案，核心矛盾是许可撤销条款与开源许可的‘永久不可撤销’冲突，对开源开发者是个明确的政策信号，值得留意。

GitHub 开源生态政策/监管

AI HOT · 2026-06-25 00:00

Oracle因AI应用裁员21000人，债务驱动云基础设施投资

05:08 Ars Technica：AI（RSS）精选 76 Oracle在截至5月31日的财年裁员21000人，员工总数降至141,000人，降幅12.9%。公司称AI技术的采用导致劳动力缩减，同时重组成本达18亿美元，同比增长481%。Oracle计划2026年通过债务和股权筹集450至500亿美元，扩建Oracle Cloud Infrastructure，服务OpenAI、xAI、AMD、Nvidia、Meta等客户。公司债务超1200亿美元。分析人士指出裁员有助于改善现金流，但Oracle也承认大规模裁员可能带来生产力下降、人才短缺和员工士气受损等风险。 OpenAI 现象/趋势行业动态推荐理由： Oracle裁员2.1万人并大举借债押注AI，这既是AI替代人力的鲜活案例，也暴露了云巨头激进投资背后的财务风险，做投资和战略的该看看。

OpenAI 现象/趋势行业动态

AI HOT · 2026-06-24 23:30

Krea 2 技术报告

23:29 Hacker News 热门（buzzing.cc 中文翻译）精选 78 Krea 2 是一系列基础模型，兼顾审美多样性与创意控制。采用扩散 Transformer（DiT）架构，集成 iREPA、改进 VAE 和 Qwen3-VL，通过预训练、中期训练、SFT、偏好优化和 RL 多阶段流水线训练。构建提示词扩展器和风格参考系统，支持从文本和图像输入进行可控探索。模型权重与推理代码以宽松许可证开源。在 Artificial Analysis 文本到图像排行榜中位列前十，独立实验室模型中排名第二。 Hugging Face 图像生成多模态开源生态推荐理由：独立实验室 Krea 把图像生成从优化模型转向创意探索，技术报告详细公开了多阶段训练和风格控制系统，开源权重和代码让这不再是空谈，但风格探索的价值还需要更多实际体验才能判断。 22:31 公众号：火山引擎精选 74 字节跳动技术副总裁洪定坤：AI Coding 的实践与探索在火山引擎Force大会，字节跳动技术副总裁洪定坤分享AI Coding实践。过去一年，字节AI代码贡献率增长6倍，tokens消耗增长5倍，但过度关注单一指标可能失真——TRAE团队代码超90%由AI生成，人均需求吞吐率仅提升60%。900次实验显示，主流Coding模型组合代码正确率超80%，但可交付性仅40-60分；结合Harness基建后提升至80分。AI降低编程门槛但需优化指标、治理、协作。字节探索原型驱动开发，能力沉淀至TRAE（日均Token消耗5.6万亿，增长50倍），并推出TRAE Work。大佬观点现象/趋势编码推荐理由：洪定坤把字节用 AI Coding 一年踩的坑和实验数据摊开讲，尤其‘过度重视代码贡献率’的反思和 Harness 基建的实证，是所有推 AI 编程的团队必看的复盘。 22:29 Hacker News 热门（buzzing.cc 中文翻译）精选 78 里德·霍夫曼称SpaceX"不是一家人工智能公司"，xAI则是"彻底的灾难" LinkedIn联合创始人、Anthropic和OpenAI投资者Reid Hoffman在播客中公开批评SpaceX和xAI。他指出SpaceX“不是一家人工智能公司”，6月12日上市后收购AI编程工具Cursor属于“花钱买相关性”；xAI则是“彻底的灾难”，所有11位联合创始人已离职，Grok模型在基准测试中落后于Anthropic和OpenAI。他还批评美国政府6月11日以出口管制为由强制Anthropic下架Fable和Mythos模型，理由仅为Amazon CEO报告Fable 5存在jailbreak漏洞，称此举“专断随意”。Hoffman认为Anthropic和OpenAI均有巨大发展空间，但Cursor可能已过巅峰。他建

Hugging Face 图像生成多模态开源生态大佬观点现象/趋势编码安全/对齐 OpenAI 产品更新推理智能体部署/工程论文/研究开源/仓库端侧模型发布语音 GitHub 评测/基准视频行业动态政策/监管教程/实践 Anthropic

AI HOT · 2026-06-24 22:21

能力强但粗心：计算机使用智能体是否遵循情境完整性？

22:49 HuggingFace Daily Papers（社区热门论文）精选 78 AgentCIBench评估计算机使用智能体（CUA）是否遵循情境完整性。它针对三种常见失败模式：视觉共置（智能体拉取任务目标旁边被禁止的项目）、任务模糊性过度分享（在提示不明确时泄露个人状态）以及收件人错配（向不适当的收件人发送内容）。对15个前沿CUA的评测显示平均泄漏率67.9%，其中11个在超过50%的场景中泄漏，这些失败在端到端任务中同样存在。AgentCIBench已发布，旨在推动开发更安全的计算机使用智能体。智能体安全/对齐论文/研究推荐理由：计算机使用代理的隐私泄露问题被严重低估了。这篇论文用 AgentCIBench 实测 15 个前沿代理，发现平均泄漏率接近 70%，把这个隐患摆到了台面上，做 agent 产品的团队该把它加入上线前测试清单。 22:24 Mistral AI：News（网页）精选 68 Mistral OCR 4 Mistral AI 发布 OCR 4，新增边界框、块分类（标题、表格、方程式、签名等）及逐页逐词置信度分数。支持 170 种语言、10 个语系，可单容器全自托管部署。在 OlmOCRBench 上得分 85.20，独立标注者偏好率平均 72%。定价每 1000 页 $4，Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。多模态搜索模型发布关联讨论 2 条 MarkTechPost（RSS） Hacker News 热门（buzzing.cc 中文翻译）推荐理由： Mistral OCR 4 把 bounding box 和置信度输出做进了产品，自托管部署和多语言能力很务实，做文档 RAG 和智能体的团队可以认真看看。 21:56 Hacker News 热门（buzzing.cc 中文翻译）精选 70 无限制OCR：单次长时域解析 Unlimited OCR 是一个托管在 GitHub 的项目，实现单次长时域解析（One-Shot Long-Horizon Parsing），旨在一次性处理长时间跨度的 OCR 任务。多模态开源/仓库推荐理由：百度把能处理超长文档的 OCR 系统开源了，宣称一次推理搞定整份文件，做发票、合同、档案数字化的可以马上跑起来试试。 21:20 Hugging Face：Blog（RSS）精选 73 IBM 开源 CUGA：轻量级智能体框架，提供二十余个单文件示例应用 IBM 开源了 CUGA（Configurable Generalist Agent），一个处理规划、执行循环、工具调用和状态管理的轻量级智能体框架。开发者只需提供工具列表和提示词即可构建 CugaAgent。内置计划-执行-

智能体安全/对齐论文/研究多模态搜索模型发布开源/仓库 GitHub MCP/工具产品更新语音行业动态 Hugging Face 开源生态教程/实践检索增强部署/工程编码视频政策/监管 Anthropic DeepMind OpenAI

AI HOT · 2026-06-24 22:21

我们的技术报告已发布。深入解析创建 Krea 2 所用的数据、架构及训练技巧。 https：//www.krea.ai/blog/krea-2-technical-report

01:37 Krea @ krea_ai 精选 71 Krea : today, we release the open weights of Krea 2. welcome Krea 2 Raw and Krea 2 Turbo, an undistilled model from mid-trainin... 图像生成开源生态模型发布推荐理由： Krea 2 开源了两个图像模型权重，一个未蒸馏适合微调，一个快速蒸馏版覆盖多样审美。对于做图像生成应用和模型融合的团队，这次开放权重比很多大厂都实在。

图像生成开源生态模型发布

AI HOT · 2026-06-24 20:12

Mistral OCR 4

22:24 Mistral AI：News（网页）精选 68 Mistral AI 发布 OCR 4，新增边界框、块分类（标题、表格、方程式、签名等）及逐页逐词置信度分数。支持 170 种语言、10 个语系，可单容器全自托管部署。在 OlmOCRBench 上得分 85.20，独立标注者偏好率平均 72%。定价每 1000 页 $4，Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。多模态搜索模型发布关联讨论 2 条 MarkTechPost（RSS） Hacker News 热门（buzzing.cc 中文翻译）推荐理由： Mistral OCR 4 把 bounding box 和置信度输出做进了产品，自托管部署和多语言能力很务实，做文档 RAG 和智能体的团队可以认真看看。

多模态搜索模型发布

AI HOT · 2026-06-24 19:08

无限制OCR：单次长时域解析

21:56 Hacker News 热门（buzzing.cc 中文翻译）精选 70 Unlimited OCR 是一个托管在 GitHub 的项目，实现单次长时域解析（One-Shot Long-Horizon Parsing），旨在一次性处理长时间跨度的 OCR 任务。多模态开源/仓库推荐理由：百度把能处理超长文档的 OCR 系统开源了，宣称一次推理搞定整份文件，做发票、合同、档案数字化的可以马上跑起来试试。

多模态开源/仓库

AI HOT · 2026-06-24 18:00

IBM 开源 CUGA：轻量级智能体框架，提供二十余个单文件示例应用

21:20 Hugging Face：Blog（RSS）精选 73 IBM 开源了 CUGA（Configurable Generalist Agent），一个处理规划、执行循环、工具调用和状态管理的轻量级智能体框架。开发者只需提供工具列表和提示词即可构建 CugaAgent。内置计划-执行-反思循环，在 AppWorld（2025年7月–2026年2月）和 WebArena（2025年2月–9月）基准上排名第一。支持 Fast / Balanced / Accurate 三种推理模式，代码执行可在本地、Docker 或 E2B 沙箱中运行。可互换工具支持 OpenAPI、MCP 和 LangChain 函数，通过环境变量一键切换 OpenAI、watsonx、Ollama 等提供商。随框架发布二十余个单文件示例应用，涵盖电影推荐、IBM Cloud 架构顾问等场景，每个应用仅需一个 FastAPI 文件。智能体 GitHub MCP/工具产品更新推荐理由： CUGA 把 agent 的规划、状态、策略等繁琐工程压缩成配置，开发者只写工具列表和 prompt 就能跑起 agent，配套的二十多个单文件应用是现成的模板库，对自建 agent 的团队来说省去了八成重复工作。

智能体 GitHub MCP/工具产品更新

AI HOT · 2026-06-24 15:19

国内首个高考志愿AI测评出炉，千问多项表现超过资深咨询师

19:10 公众号：千问APP（阿里）精选 60 友松实验室发布国内首个高考志愿AI能力测评报告，测试千问高考志愿填报Agent四大模块。与53位平均从业4.6年的人类咨询师对照，千问表现更稳定精确：44道事实题全对；模拟10个志愿中6个可录取；100场匿名对比中专家58次倾向千问回答。使用千问辅助后，人类咨询师正确率提升，耗时减少约27%。该Agent基于千问高考志愿大模型和夸克8年高考数据，覆盖约3000所院校、2000多个专业。智能体产品更新推荐理由：千问高考志愿Agent的测评报告，数据看着漂亮，但全是阿里自家实验室出品，参考意义不大，真填志愿还是得找独立第三方。

智能体产品更新

AI HOT · 2026-06-24 14:14

网易有道发布 Confucius4-TTS：14 语种跨语种无口音语音克隆开源模型

19:10 IT之家（RSS）精选 72 网易有道推出“子曰 4.0”TTS 引擎 Confucius4-TTS，声称是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。用户仅需 3 秒音频即可实现零样本音色克隆，克隆音色与原声相似度超 85%，任务准确度达 97%。模型支持中文、英语等 14 种语言，首创音频 Prompt 情感克隆迁移。底层采用 GPT 式语义大模型、SSL 预训练特征与 ECAPA-TDNN 说话人编码器、Flow Matching 框架。已全量开源（Apache 协议），提供 54GB 资源包供本地部署。 GitHub 模型发布语音推荐理由：网易有道把语音克隆的门槛压到了 3 秒，跨 14 种语言还能保持无口音，而且全量开源、商用无限制，对多语种配音和短剧出海是直接可用的工具。

GitHub 模型发布语音