AI and technology watch

AI 新闻

聚合过去 24 小时 AI 与开发者生态动态，并提供来源链接以便深入阅读。

---

AI HOT · 2026-07-15 07:11

商汤开源 SenseNova-Vision-7B-MoT 多任务视觉模型

09:05 SenseTime @ SenseTime_AI 精选 74 商汤发布并完全开源 SenseNova-Vision-7B-MoT，一个统一处理检测、OCR、GUI、深度与法线估计、分割、多视图等主要视觉任务的模型。该模型支持通过自然语言定义新的视觉任务变体，跨传统任务边界重组视觉能力。开源内容包括模型权重及 SenseNova-Vision Corpus（含 5000 万示例子集及复现剩余公开数据的完整工具包）。 arXiv GitHub 多模态开源生态另有 1 家信源报道 X：商汤 SenseTime (@SenseTime_AI) 推荐理由：商汤把检测、OCR、深度估计等多个视觉任务塞进一个7B模型，还贴心地开源了数据集和复现工具，做视觉理解或GUI agents的团队可以直接拿它当基座，不是又一个刷榜的轻量版。

arXiv GitHub 多模态开源生态

AI HOT · 2026-07-15 06:00

OpenAI 面向普通用户发布提示词指南：从结果出发，少写步骤

02:03 The Decoder：AI News（RSS）精选 78 OpenAI 整合了一份面向普通用户的提示词指南，涵盖目标、上下文、输出格式和边界四个可选模块。指南建议以结果而非步骤开头，用一两条硬性规则替代逐步骤脚本。Chat 处理快速任务，基于 Codex 技术和 GPT-5.6 模型的 ChatGPT Work 负责多源、多步骤的复杂项目。Codex 新增 Steer（重定向当前运行）、Queue（排队下一条消息）和沙盒模式，支持 /plan 、 /goal 和 /review 等斜杠命令。用户无需一次性写对提示词，后续追问是预期调整方式。 OpenAI 教程/实践另有 1 家信源报道 X：小互 (@xiaohu) 推荐理由： OpenAI 这次把提示工程从极客技巧拉回常识沟通，核心就一句：先说你想要的结果，别替模型操心步骤。普通用户读完就能上手，思路比旧版引导更务实。

OpenAI 教程/实践

AI HOT · 2026-07-15 06:00

前沿模型实际成本：tokenizer 差异导致隐性涨价

05:54 Hacker News 热门（buzzing.cc 中文翻译）精选 77 同一份 TypeScript 文件在 GPT-5.x 上为 681 个 token，在 Claude 最新 tokenizer 下为 1,178 个，相差 1.73 倍。Anthropic 新 tokenizer 比旧版多产生约 30% 的 token，标价不变，构成隐性涨价。Claude Opus 4.6 与 Opus 4.8 标价同为 $5.00 / $25.00，但新 tokenizer 使同一代码的 token 数增加约 32%。Claude Sonnet 5 的 $2.00 / $10.00 为促销价，2026 年 8 月 31 日后恢复 $3.00 / $15.00，届时相同代码成本将比 Sonnet 4.6 高出约 32%。跨厂商对比中，Claude 新 tokenizer 在代码上比 GPT 多产生 1.50x 至 1.73x 的 token，TypeScript 差距最大。 Anthropic OpenAI 编码评测/基准推荐理由：这篇用实打实的token计数揭开了各厂商定价页藏着的秘密，代码场景下Claude有效价格比GPT贵50-73%，做coding agent的必须按‘每任务成本’而非‘每token标价’来算账。

Anthropic OpenAI 编码评测/基准

AI HOT · 2026-07-15 03:39

xAI 官方 Grok CLI 被曝静默上传整个代码库及用户密钥

1 4 信源 · 12小时前

AI HOT · 2026-07-15 03:39

完整榜单

今日热点 1 xAI 官方 Grok CLI 被曝静默上传整个代码库及用户密钥 4 信源 · 12小时前

AI HOT · 2026-07-15 02:30

德国AI协会发布开源模型Soofi S，在英语和德语基准测试中领先

20:02 The Decoder：AI News（RSS）精选 70 德国AI协会协调的研究联盟发布开源大语言模型Soofi S 30B-A3B。该模型总参数量316亿，每个token仅激活约32亿参数，采用Mamba-2与标准注意力层混合的MoE架构。模型完全在德国电信慕尼黑工业AI云上训练，训练数据中德语占比从第一阶段的7.2%提升至第二阶段的15.3%。在基准测试中，Soofi S在所有完全开源模型中取得英语和德语综合最高分，超越OLMo 3 32B和Apertus 70B。在HumanEval上得分73.8%，MBPP得分70.2，德语版MBPP得分84.2。上下文窗口支持最高100万token，在4万token长度下，生成吞吐量约为同规模稠密模型的8倍。模型权重已开源。开源/仓库模型发布编码另有 1 家信源报道 HuggingFace Daily Papers（社区热门论文）推荐理由：德国联盟用 Mamba-Transformer 混合架构做出一个 30B 开源模型，德语基准横扫，长上下文推理吞吐八倍于同级密集模型，想做德语 AI 的可以认真看了。 19:20 公众号：腾讯混元精选 76 腾讯混元发布 HyOCR-1.5：端到端 OCR 大模型全栈开源，推理提速 6.37 倍腾讯混元发布 HyOCR-1.5，这是端到端 OCR 大模型领域首个将训练、推理、模型权重完整开源的专家模型。仅 1B 参数，覆盖 8 种以上 text-centric 任务。引入 DFlash 投机解码框架，在 Transformers 下实现 6.37× 加速，vLLM 下 2.14× 加速，端到端推理达每页 1.408s。支持 4K 分辨率与 128K 上下文窗口，通过 Agentic Data Flow 扩展低资源 OCR（331 种语言）、古文字识别与多图问答能力。在 OmniDocBench v1.6 上以 94.74 分居端到端第一。 arXiv GitHub 多模态开源生态推荐理由：我觉得这是近期最实在的OCR开源，1B参数覆盖多任务、推理加速6倍，还支持llama.cpp本地部署，做文档解析的同学可以直接上车。 18:35 IT之家（RSS）精选 77 Meta 宣布扩建路易斯安那州数据中心至 5GW，总投资超 500 亿美元 Meta 将其路易斯安那州数据中心算力扩至 5GW，总投资超 500 亿美元，为全球最大 AI 基础设施投资之一。Meta 承诺承担全部能源及水资源费用，并另投超 10 亿美元改善当地道路及供水系统。此外，Meta 与安特吉公司达成协议，为新建天然气发电厂、储能电池及核电增容项目提供资金支持。 Meta 行业动态推荐理由： 500 亿美元把 AI 军备竞赛推到了 5GW 量级，这已经不是数据中心，是电力公

开源/仓库模型发布编码 arXiv GitHub 多模态开源生态 Meta 行业动态图像生成评测/基准 xAI 安全/对齐 OpenAI 教程/实践部署/工程产品更新智能体推理

AI HOT · 2026-07-15 02:30

xAI 官方 Grok CLI 被曝静默上传整个代码库及用户密钥

今日热点 TOP 1 1 4 信源 · 11小时前

AI HOT · 2026-07-15 01:09

马斯克承认 Grok Build 上传用户代码，SpaceXAI 承诺彻底删除数据

14:36 IT之家（RSS）精选 75 独立安全研究者 @cereblab 通过钓鱼仓库证实，SpaceXAI 旗下 AI 编程 agent Grok Build 在用户关闭“帮助改进模型”开关后仍将整个代码仓库上传至 Google Cloud 存储桶。一个 12GB 测试仓库被拆成 73 个数据包共传输 5.1GB，而正常对话仅用 192KB。另一研究者复现发现日志记录 339 次自动上传，其中一次涉及整个电脑主目录。事件曝光后，Elon Musk 亲自回应承认属实，承诺彻底删除所有此前上传的用户数据。Grok Build 已上线 /privacy 命令供用户一键关闭数据留存并追溯删除已上传数据。 xAI 安全/对齐编码行业动态推荐理由： AI编程工具在最高权限下偷偷上传代码，从被揭露到马斯克亲自清零只花了48小时，这是对整个Agentic Coding赛道的一次信任审判。

xAI 安全/对齐编码行业动态

AI HOT · 2026-07-15 00:00

Meta 宣布扩建路易斯安那州数据中心至 5GW，总投资超 500 亿美元

18:35 IT之家（RSS）精选 77 Meta 将其路易斯安那州数据中心算力扩至 5GW，总投资超 500 亿美元，为全球最大 AI 基础设施投资之一。Meta 承诺承担全部能源及水资源费用，并另投超 10 亿美元改善当地道路及供水系统。此外，Meta 与安特吉公司达成协议，为新建天然气发电厂、储能电池及核电增容项目提供资金支持。 Meta 行业动态推荐理由： 500 亿美元把 AI 军备竞赛推到了 5GW 量级，这已经不是数据中心，是电力公司级的基础设施赌注，对算力上下游的影响会持续数年。

Meta 行业动态

AI HOT · 2026-07-15 00:00

腾讯混元发布 HyOCR-1.5：端到端 OCR 大模型全栈开源，推理提速 6.37 倍

19:20 公众号：腾讯混元精选 76 腾讯混元发布 HyOCR-1.5，这是端到端 OCR 大模型领域首个将训练、推理、模型权重完整开源的专家模型。仅 1B 参数，覆盖 8 种以上 text-centric 任务。引入 DFlash 投机解码框架，在 Transformers 下实现 6.37× 加速，vLLM 下 2.14× 加速，端到端推理达每页 1.408s。支持 4K 分辨率与 128K 上下文窗口，通过 Agentic Data Flow 扩展低资源 OCR（331 种语言）、古文字识别与多图问答能力。在 OmniDocBench v1.6 上以 94.74 分居端到端第一。 arXiv GitHub 多模态开源生态推荐理由：我觉得这是近期最实在的OCR开源，1B参数覆盖多任务、推理加速6倍，还支持llama.cpp本地部署，做文档解析的同学可以直接上车。

arXiv GitHub 多模态开源生态

AI HOT · 2026-07-15 00:00

苹果诉OpenAI窃取商业机密：指控涉及400多名前员工及“LOL”消息

今日热点 TOP 1 1 3 信源 · 1小时前

AI HOT · 2026-07-14 22:39

黄仁勋：英伟达季度收入逼近千亿美元，Rubin Ultra 架构未延期

09:35 IT之家（RSS）精选 77 英伟达CEO黄仁勋在摩根士丹利路演中表示，公司季度营收即将逼近1000亿美元，且增长速度仍在加快。他否认下一代旗舰架构Rubin Ultra延期传闻，称其仍按计划于明年出货，当前机架设计调整仅为系统架构优化。一个此前主要依赖ASIC的前沿AI模型项目，如今英伟达GPU算力占比已接近50%，市场普遍指向Anthropic。英伟达预计本财年CPU业务收入约200亿美元，下一代Vera CPU将进军通用服务器市场。摩根士丹利维持英伟达“增持”评级，目标价288美元。行业动态推荐理由：黄仁勋亲口否认 Rubin 延期，还透露一个主力 ASIC 客户开始大量采购 GPU，对算力市场的竞争格局是个重要信号，做 AI 基础设施的值得细看。

行业动态

AI HOT · 2026-07-14 22:39

Seedream 5.0 Pro 测评：图像编辑门槛爆降

18:29 歸藏(guizang.ai) @ op7418 精选 75 字节跳动发布 Seedream 5.0 Pro，图像质量与提示词理解追平 GPT-Image 2.0，综合能力仅次于后者。核心亮点是“可编辑”交互：用户可在图上打点、画框、涂鸦，提示词中直接 @ 标记，实现精准局部编辑（如换沙发、改墙面颜色），其他区域不变。实测案例涵盖家装改造（一次替换六件家具）、商品图制作（键盘爆炸拆解图、标注卖点）、海报排版（框定位置生成文字）等场景，支持色卡配色和 SKU 换色。火山引擎已全量上线 API，即梦、豆包、Lumina 可体验。图像生成评测/基准关联讨论 1 条 X：歸藏 (@op7418) 推荐理由：归藏实地测了 Seedream 5.0 Pro，真正杀招是图像编辑，把选区做进提示词，家装、电商、海报案例都给了可复制的实操步骤。这是字节图像生成追平甚至在某些场景反超的节点，做内容或电商的值得马上试。

图像生成评测/基准

AI HOT · 2026-07-14 22:39

Sam Altman 不需要又一场官司：Apple 起诉 OpenAI 窃取商业机密

22:27 The Verge：AI（RSS）精选 75 OpenAI 上周五遭到 Apple 在加州北区联邦法院提起的高调诉讼。Apple 指控前员工“为 OpenAI 的利益窃取 Apple 商业机密”，41 页诉状称 Apple 对产品开发、制造、供应链、技术研究等创新保密，且“涉及 Apple 的商业机密范围广泛”。这是 OpenAI 今年遭遇的又一起重大法律纠纷，此前已面临包括世界首富在内的多起诉讼。该案直接威胁 OpenAI 昂贵的硬件押注。 OpenAI 行业动态关联讨论 9 条 TechCrunch：AI（RSS） The Verge：AI（RSS） X：Testing Catalog (@testingcatalog) Hacker News 热门（buzzing.cc 中文翻译） X：Rohan Paul (@rohanpaul_ai) X：Kim (@kimmonismus) IT之家（RSS） Ars Technica：AI（RSS） X：Berry Xia (@berryxia) 推荐理由：苹果起诉OpenAI的商业秘密案，可能动摇Sam Altman的IPO计划，这是今年最能让OpenAI伤筋动骨的法律纠纷。 21:06 Anthropic：Research（发表成果 · 网页）精选 61 Anthropic 经济指数：加拿大 Claude 使用情况分析基于2026年2月Claude.ai对话样本，加拿大占全球流量的2.6%，人均使用量是预期的4.4倍，在总使用量前十国家中仅次于美国。加拿大内部采用率高度集中：安大略省占43.9%对话，不列颠哥伦比亚省人均使用量达预期的1.4倍，而纽芬兰与拉布拉多省仅为0.2倍。省级人均使用量与收入无关，而与专业、科学和技术服务业的就业占比高度相关。各省使用场景稳定：工作占34–40%，课程作业占13–18%，个人用途占44–51%。翻译请求与公共管理就业份额正相关，反映加拿大联邦双语政策；文档翻译是加拿大相对于其他英语国家最独特的使用场景。加拿大整体使用偏向学术和早期职业场景。 Anthropic 行业动态论文/研究推荐理由： Anthropic 用自家平台数据给加拿大 AI 使用情况做了次详细 CT，最意外的发现是工业结构比收入更能解释各省采纳差异，翻译和学术用途占比尤其突出，做区域市场分析的值得一读。 17:32 Demis Hassabis @ demishassabis 精选 68 Demis Hassabis：AGI 数年可至，影响达工业革命10倍 Google DeepMind 联合创始人 Demis Hassabis 发文称，AGI 可能仅需数年即可实现，其影响将达工业革命的10倍且速度更快。他指出，前沿模型在网络安全、核与生物风险方面已构成挑战，未来需对日益智能体

OpenAI 行业动态 Anthropic 论文/研究 DeepMind 大佬观点安全/对齐政策/监管智能体教程/实践视频开源生态模型发布部署/工程产品更新具身智能多模态现象/趋势 xAI 编码数据/训练端侧 arXiv GitHub 评测/基准

AI HOT · 2026-07-14 21:14

腾讯混元发布Hy3模型：295B参数MoE架构，Agent向LLM定位，已集成微信服务10亿+用户

00:35 AYi @ AYi_AInotes 精选 75 腾讯混元团队发布Hy3模型，采用295B总参数、21B激活参数的MoE架构，推理效率可打平参数规模2-5倍的旗舰模型。Hy3定位为Agent向LLM，从preview到正式版基于50多个真实业务反馈迭代，内部WorkBuddy任务成功率从72%提升至90%，耗时降低34%，幻觉和常识错误持续下降。实测显示其在coding、办公、复杂任务规划方面表现突出，纯视觉能力为短板。Hy3已集成至微信服务10亿+用户，视频演示包括生成HTML网页、Agent网页和10页PPT，模型具备自检和主动说明不足的能力。 AYi : 最近当大家都在刷屏Fable 5和GPT-5.6 的时候, 殊不知腾讯已经悄无声息的把大模型能力给追上来了。你们知道腾讯低调到什么程度吗? 前几天发布的Hy3 ,21B的激活参数已经可以打平旗舰水准,并且直接塞进微信10 亿+用户手里 ,... 智能体推理模型发布关联讨论 1 条 X：阿易 AI Notes (@AYi_AInotes) 推荐理由：腾讯Hy3 不拼参数拼干活效率，直接集成十亿用户，这是国产模型第一次把 Agent 底座铺到日常生活里，比刷榜重要得多。

智能体推理模型发布

AI HOT · 2026-07-14 21:14

早上好。过去48小时里，Codex和ChatGPT Work非常忙碌！三项重要更新： - 暂时取消所有Plus、Business和Pro计划的5小时使用限制 - 正在推出变更，使GPT 5.6 Sol整体更高效，这将体现在使用量减少上，从而让你能走得更远。具体影响待量化后公布 - 我们已达到600万活跃用户，并将在接下来一小时内进行使用量重置去创造吧。

02:29 Tibo @ thsottiaux 精选 76 OpenAI 产品更新关联讨论 5 条 X：Tibo (@thsottiaux) X：阿易 AI Notes (@AYi_AInotes) X：Kim (@kimmonismus) IT之家（RSS） X：宝玉 (@dotey) 推荐理由： ChatGPT 取消 5 小时使用限制并重置用量，对重度用户是立等可取的解放，但效率提升效果还没量化，我先观望。

OpenAI 产品更新

AI HOT · 2026-07-14 21:14

Ploy 将 AI 智能体默认模型从 Claude Opus 4.8 切换至 GPT-5.6 Sol

07:54 Hacker News 热门（buzzing.cc 中文翻译）精选 70 Ploy 将其 AI 智能体默认模型从 Claude Opus 4.8 切换至 OpenAI 今晨发布的 GPT-5.6 Sol。在真实营销网站构建测试中，GPT-5.6 Sol 完成页面平均耗时 3 分 42 秒，较 Opus 4.8 的 8 分钟快 2.2 倍；每次构建成本从 3.06 美元降至 2.22 美元，降低 27%；输出 token 从 33.0K 降至 17.1K，视觉评分从 0.936 提升至 0.970。迁移过程发现，GPT-5.6 会为所有 25 个工具参数填充默认值，导致 52%-64% 的文件读取返回空结果；提示词指令和 OpenAI strict 模式均无法修复此行为。此外，评估框架中约三分之一的原始失败源于针对旧模型的假设，而非模型本身问题。 OpenAI 教程/实践部署/工程推荐理由：这篇 Ploy 的迁移手记把 GPT-5.6 生产中踩的坑都摊开了，工具调用参数膨胀和缓存键设计两个问题，做 agent 的团队不看可能会付昂贵学费。

OpenAI 教程/实践部署/工程

AI HOT · 2026-07-14 16:31

xAI Grok Build CLI 网络流量分析：上传仓库全部文件及 git 历史

12:23 Hacker News 热门（buzzing.cc 中文翻译）精选 74 对 xAI 官方 Grok Build 编码 CLI（grok 0.2.93）的网络流量分析显示，该工具在消费者登录后会向 xAI 发送三类数据：一是它读取的文件内容（包括 .env 密钥文件）以明文形式通过 POST /v1/responses 传输，并同时打包成 session_state 存档通过 POST /v1/storage 上传并获 HTTP 200 确认；二是整个仓库的全部文件内容及 git 历史，独立于 AI 智能体实际读取的文件——即使提示“不要读取任何文件”，Grok 仍将整个仓库作为 git bundle 上传至 Google Cloud Storage 的 grok-code-session-traces 存储桶；三是该上传机制默认开启，且关闭“改进模型”设置不会禁用（/v1/settings 仍返回 trace_upload_enabled: true）。在 12 GB 仓库测试中，/v1/storage 传输了 5.10 GiB 数据，而模型对话通道仅传输 192 KB，比例约 27,800 倍。分析未证明 xAI 使用这些数据进行训练，但证实了数据被传输、接收并存储。 MCP/工具 xAI 安全/对齐推荐理由：这是我见过最严谨的隐私调查，每步可复现——Grok CLI 会在用户不知情下将完整仓库、.env 密钥甚至未读文件原样上传至 xAI 的 GCS，默认开启且无法真正关闭，所有用 Grok Build 的开发者都得重审自己的 secrets。

MCP/工具 xAI 安全/对齐

AI HOT · 2026-07-14 16:31

OpenAI CEO Altman 改口称 AI 净创造就业，Anthropic CEO 也修正早期言论

17:28 The Decoder：AI News（RSS）精选 71 OpenAI CEO Sam Altman 表示，他“相当确信”AI 迄今为止净创造了就业，并承认“这并非我预期”。此前他曾警告 AI 影响可能快得“有点吓人”。Anthropic CEO Dario Amodei 也修正了早期言论，将自动化描述为生产力倍增器而非岗位杀手。然而，多项研究未发现 AI 对整体生产力或劳动力市场产生显著影响。一项多校联合研究指出，程序员和文案的就业危机始于 2022 年初，早于 ChatGPT 发布。耶鲁预算实验室也未发现与 AI 相关的就业市场变化。 Anthropic OpenAI 大佬观点现象/趋势关联讨论 1 条 IT之家（RSS）推荐理由： Altman和Amodei几乎同时调头，从“AI消灭工作”变成“AI净增就业”，这个转向本身比任何研究都更能说明行业叙事在怎么变。

Anthropic OpenAI 大佬观点现象/趋势

AI HOT · 2026-07-14 16:31

Mindwalk：在代码库 3D 地图上回放编码代理会话

22:23 Hacker News 热门（buzzing.cc 中文翻译）精选 74 Mindwalk 是一款可视化工具，可将 Claude Code 和 Codex 的会话日志在代码库的 3D 地图上回放。它将仓库绘制成夜间地图，代理搜索、读取和编辑过的文件会发光，未触及区域保持黑暗，让用户一眼看清代理对任务的理解范围。单个 Go 二进制文件即可运行，所有会话数据完全本地处理，不会离开机器。支持树状图/地形图两种视图，文件触达状态分为未访问、已查看、已读取、已编辑四种颜色标记。播放界面包含错误率、文件修改量等摩擦信号面板，以及上下文压缩、子代理启动、用户交互等时间轴标记。支持键盘快捷键控制播放速度、跳转编辑点或错误点。智能体 GitHub 开源/仓库编码推荐理由：这个工具把编码代理的会话回放做成 3D 代码地图，一眼就能看出代理探索了哪些文件、在哪里改动最多。如果你是 Claude Code 或 Codex 用户，这是目前最直观地理解代理「脑子里在想什么」的方式。

智能体 GitHub 开源/仓库编码