AI and technology watch

AI 新闻

聚合过去 24 小时 AI 与开发者生态动态，并提供来源链接以便深入阅读。

---

AI HOT · 2026-07-09 22:41

本周新功能 🚀 Replit 社区档案--vibe coders 的工作证明。你的档案，你的展示。获取你的智能体使用和检查点的活跃度图表，外加面向专业用户的 Replit 力量排名。登录，认领你的档案，挑选你最棒的项目，与朋友分享你的数据。立即查看 → http://replit.com/community

23:25 Replit ⠕ @ Replit 精选 68 智能体产品更新编码推荐理由： Replit 给 vibe coders 加上了个人主页和工作证明，用活动图和排名展示 agent 使用，让 AI 编程社区有了社交层，但实质还是功能小更新，对非重度用户意义有限。 23:25 OpenRouter @ OpenRouter 精选 65 新功能：聊天室一键ZDR（零数据保留）在完全隐私保护下横向对比模型：https://openrouter.ai/chat 产品更新推荐理由： OpenRouter 聊天室新加了一键 ZDR，对比模型时请求数据不存储，注重隐私的开发者会开心，但毕竟只是个开关，算不上大新闻。 22:33 Mistral AI：News（网页）精选 70 Robostral Navigate：Mistral AI 首个具身导航模型 Robostral Navigate 是 Mistral AI 首个具身导航模型（8B 参数），仅用单 RGB 摄像头，在 R2R-CE 验证集上取得 76.6%（unseen）和 79.4%（seen）的成功率，超越最佳单摄像头方法 9.7 个百分点，超越使用深度或多摄像头的系统 4.5 个百分点。模型通过 pointing 预测目标坐标并结合强化学习持续改进，全部在模拟中训练（约 40 万轨迹、6000 场景），采用 prefix-caching 实现高效训练。通用适配轮式、腿式和飞行机器人，能适应真实环境中未训练的障碍。具身智能多模态模型发布推荐理由： Mistral 首个具身导航模型，只用单 RGB 摄像头就在未见环境中跑赢深度传感器方案，对机器人行业是个真信号，做物流和制造的可以仔细看看。 21:22 字节 Seed：Research Feed（网页内嵌数据）精选 78 Seedream 5.0 Pro 发布：不止"生成"，更懂"设计" 字节 Seed 今日发布多模态图像创作模型 Seedream 5.0 Pro，在图文匹配、结构合理性、文字渲染与画面美感上全面升级。四大核心突破：复杂信息可视化，可生成高密度信息图；交互式精准编辑，支持点选、圈选、草图渲染、色彩与材质替换、图层分离及多图融合，实现像素级编辑；真实的影像与人像质感，还原光影、材质与皮肤肌理；原生多语种输入与生成，支持十余种语言及本地化视觉特征。已陆续在豆包、即梦、火山方舟等平台上线。图像生成多模态模型发布关联讨论 1 条 IT之家（RSS）推荐理由：字节这次发布的 Seedream 5.0 Pro 把图像生成从「画得好看」推进到「能输出信息图、能精准编辑」的实用设计工具，尤其复杂信息图和交互编辑是当前竞品明显短板，做设计的值得立刻试试。 20:14 Berryxia.AI @ berryxia 精选 76

智能体产品更新编码具身智能多模态模型发布图像生成 GitHub MCP/工具开源/仓库 OpenAI 安全/对齐行业动态论文/研究 Anthropic 部署/工程政策/监管 arXiv 推理视频 Hugging Face 开源生态数据/训练大佬观点教程/实践 Meta Microsoft 现象/趋势

AI HOT · 2026-07-09 22:41

原生速度的 vLLM transformers 建模后端

00:21 Hugging Face：Blog（RSS）精选 66 Hugging Face 宣布 transformers vLLM 后端现与手写原生 vLLM 实现速度相当甚至更快。模型作者无需移植代码，即可自动利用 transformers 获得超快推理。测试使用 Qwen3-4B（单 GPU）、Qwen3-32B（张量并行）和 Qwen3-235B-A22B-FP8 MoE（数据+专家并行）三种配置，吞吐量均达到或超过原生。该后端通过 torch.fx 静态分析图、AST 重写代码实现动态层融合，支持张量/管道/专家并行及 torch.compile。用户仅需添加 --model-impl transformers 标志。目前不支持线性注意力模型但即将支持。 Hugging Face 产品更新推理部署/工程推荐理由：用 transformers 写的模型，现在不用改一行代码就能在 vLLM 里跑到手写实现的水平，模型作者最大的集成痛被抹平了。虽然主要是工程黑魔法，但生态意义不小。

Hugging Face 产品更新推理部署/工程

AI HOT · 2026-07-09 21:26

Seedream 5.0 Pro 发布：不止"生成"，更懂"设计"

21:22 字节 Seed：Research Feed（网页内嵌数据）精选 78 字节 Seed 今日发布多模态图像创作模型 Seedream 5.0 Pro，在图文匹配、结构合理性、文字渲染与画面美感上全面升级。四大核心突破：复杂信息可视化，可生成高密度信息图；交互式精准编辑，支持点选、圈选、草图渲染、色彩与材质替换、图层分离及多图融合，实现像素级编辑；真实的影像与人像质感，还原光影、材质与皮肤肌理；原生多语种输入与生成，支持十余种语言及本地化视觉特征。已陆续在豆包、即梦、火山方舟等平台上线。图像生成多模态模型发布关联讨论 1 条 IT之家（RSS）推荐理由：字节这次发布的 Seedream 5.0 Pro 把图像生成从「画得好看」推进到「能输出信息图、能精准编辑」的实用设计工具，尤其复杂信息图和交互编辑是当前竞品明显短板，做设计的值得立刻试试。

图像生成多模态模型发布

AI HOT · 2026-07-09 21:26

Robostral Navigate：Mistral AI 首个具身导航模型

22:33 Mistral AI：News（网页）精选 70 Robostral Navigate 是 Mistral AI 首个具身导航模型（8B 参数），仅用单 RGB 摄像头，在 R2R-CE 验证集上取得 76.6%（unseen）和 79.4%（seen）的成功率，超越最佳单摄像头方法 9.7 个百分点，超越使用深度或多摄像头的系统 4.5 个百分点。模型通过 pointing 预测目标坐标并结合强化学习持续改进，全部在模拟中训练（约 40 万轨迹、6000 场景），采用 prefix-caching 实现高效训练。通用适配轮式、腿式和飞行机器人，能适应真实环境中未训练的障碍。具身智能多模态模型发布推荐理由： Mistral 首个具身导航模型，只用单 RGB 摄像头就在未见环境中跑赢深度传感器方案，对机器人行业是个真信号，做物流和制造的可以仔细看看。

具身智能多模态模型发布

AI HOT · 2026-07-09 17:06

在校研究生Kunkun开源管理相互调用Skill的方法

20:14 Berryxia.AI @ berryxia 精选 76 在校研究生Kunkun开源了一套管理大量互相调用Skill的方法。核心方案包括：1）搭建HTML后台，按运行模式（手动/自动）、链路位置、专业领域三类标签筛选Skill；2）将连环调用的Skill绘制成Mermaid流程图，根据debug、新功能、合PR、改设计等阶段定位对应技能组；3）仿照Matt的ask Matt技能开发“ask me”技能，将调用决策浓缩成上下文喂给模型。该方法避免将所有调用交给模型自行判断，保持工程复杂场景下的人机对齐与可控性。项目已开源至GitHub。 KunKun折腾手记 : 分享一下我现在随着 skill 越来越多、并且互相之间都有调用关系的情况下,是如何去管理 skill 并且去协调这些 skill 的使用的。首先,我会建一个 HTML,它主要分为两块: 第一块是类似后台的索引块。在索引块这边,你可以通过标... 智能体 GitHub MCP/工具开源/仓库推荐理由：这套方法把 Skill 管理的索引、流程和决策浓缩打包，是当前最落地的实践之一，尤其适合被 agent 调用链搞晕的开发者。一个在校生能做出这样清晰的开源方案，值得直接拿去用。

智能体 GitHub MCP/工具开源/仓库

AI HOT · 2026-07-09 15:47

Claude开发者分享两种多智能体模式：Advisor和Orchestrator

4 3 信源 · 21分钟前

AI HOT · 2026-07-09 14:27

GitLost：Noma Labs 发现 GitHub AI 代理提示词注入漏洞

16:44 Hacker News 热门（buzzing.cc 中文翻译）精选 81 Noma Labs 在 GitHub Agentic Workflows 中发现严重提示词注入漏洞 GitLost。未认证攻击者仅需在属于同一组织的公共仓库中创建一个嵌有恶意指令的 Issue，即可诱使基于 Claude 或 GitHub Copilot 的 AI 代理读取并公开该组织内私有仓库的内容。攻击无需编码技能或凭证，根源在于代理将用户可控内容视为可信指令，且 GitHub 的防护措施因 "Additionally" 关键词被绕过。Noma Labs 已公开 PoC 并建议限制跨仓库权限、隔离用户输入。智能体 GitHub 安全/对齐推荐理由： GitLost 是第一个有完整复现的 GitHub AI 代理泄露私有仓库漏洞，展示了 AI 代理的上下文窗口即攻击面，做 AI 应用或 CI/CD 的人都该看一下。

智能体 GitHub 安全/对齐

AI HOT · 2026-07-09 14:27

加拿大不列颠哥伦比亚省拟起诉OpenAI：未上报ChatGPT暴力对话致校园枪击惨案

18:15 IT之家（RSS）精选 75 加拿大不列颠哥伦比亚省7月7日宣布将起诉OpenAI，指控其未向执法部门上报一名ChatGPT用户2025年6月封禁前的暴力相关对话内容。该用户随后于今年2月在塔布勒岭制造校园枪击案，杀害8人。OpenAI CEO萨姆·奥尔特曼今年4月为此公开致歉，承认本应上报但未执行。受害家属已在加州法院提起诉讼，省政府正协调独立诉讼，要求赔偿用于社区重建。 OpenAI 安全/对齐行业动态推荐理由：这是AI公司因用户对话内容失察而被政府追责的里程碑案例，胜诉将推动平台安全上报义务的重新定义，对全行业治理影响深远。

OpenAI 安全/对齐行业动态

AI HOT · 2026-07-09 04:56

美国商务部批准OpenAI大规模发布GPT-5.6，Sol明日亮相

12:15 IT之家（RSS）精选 80 美国商务部正式批准OpenAI大规模发布GPT-5.6。OpenAI宣布GPT-5.6 Sol将于本周四完成最后准备后，与Terra和Luna一同面向公众推出。此前因国家安全考量，美国政府要求分阶段发布，仅允许向经批准的有限实体开放。此次全面放行标志着临时管控结束。获批前，美国商务部下属AI标准与创新中心执行了测试，OpenAI技术团队驻扎华盛顿配合沟通。美国最新AI行政令即将出台，旨在为先进AI模型发布建立正式评估框架。 OpenAI 政策/监管关联讨论 1 条 The Decoder：AI News（RSS）推荐理由：美国政府撤销 GPT-5.6 的发布限制，Sol 明日亮相，这是 AI 监管的一次实际测试，开发者终于能摸到真东西了。

OpenAI 政策/监管

AI HOT · 2026-07-09 04:56

AI 审计代理在 Cloudflare CIRCL 中发现 7 个漏洞

12:44 Hacker News 热门（buzzing.cc 中文翻译）精选 71 zkSecurity 的 AI 审计代理 zkao 持续扫描 Cloudflare 的 CIRCL 密码学库，使用 Opus 4.6 + skills 和 GPT-5.3 + skills 等模型发现并确认了 7 个真实漏洞。其中包括阈值 RSA 中 float64 精度丢失（AI 自评 Critical）和属性基加密（CP-ABE）访问控制完全失效（Critical，由 zkao 自行发现）。所有漏洞已在上游修复，多数在 HackerOne 上获得确认和奖励。AI 生成的候选发现仍需人工验证，但 zkao 已能自动完成大部分验证工作。 Anthropic OpenAI 安全/对齐编码推荐理由： zkSecurity用AI扫了Cloudflare的密码学库，挖出7个真实漏洞，从浮点数精度损失到访问控制完全破防。这是AI在密码学审计里第一次证明自己能找到能用的漏洞，不是纸上谈兵。虽然后面发现AI对严重性的判断还很瞎，但整体值得安全从业者一读。

Anthropic OpenAI 安全/对齐编码

AI HOT · 2026-07-09 04:56

工信部发布Claude Code后门安全风险提示

14:05 小互 @ xiaohu 精选 79 中国工信部发布风险提示，指出 Claude Code 2.1.91 至 2.1.196 版本内置监控机制，未经用户同意即向远程服务器回传用户地域、身份标识等敏感信息。建议相关单位立即全面排查，对受影响版本卸载或升级至已清除后门代码的最新安全版本，并加强开发工具外联权限管控与流量监测，防止敏感数据违规外传。 Anthropic 安全/对齐编码部署/工程推荐理由：工信部这份公告不是泛泛的安全提醒，而是直接点名Claude Code特定版本内置数据回传，这对所有中国开发者团队都是一个立即行动的命令，Claude Code在中国的信任危机开始了。

Anthropic 安全/对齐编码部署/工程

AI HOT · 2026-07-09 04:56

黑客可利用9款最流行的AI工具组装大规模僵尸网络

15:17 Ars Technica：AI（RSS）精选 78 提示注入已成为AI安全的首要威胁——大语言模型无法区分合法指令与恶意指令。此前推送式和拉取式攻击规模均有限。研究人员提出一种名为HalluSquatting的新型拉取式提示注入攻击，首次能组装大规模僵尸网络、执行分布式拒绝服务攻击（DDoS）并大规模感染设备。该攻击可作用于AI编码工具，标志着提示注入攻击从单点突破转向规模化利用。智能体 GitHub 安全/对齐论文/研究推荐理由：这项研究首次揭示了利用 LLM 幻觉进行大规模 botnet 攻击的可行路径，影响范围覆盖几乎所有主流 AI 编程助手，每个依赖这些工具的开发者都该看一眼。

智能体 GitHub 安全/对齐论文/研究

AI HOT · 2026-07-09 04:56

Runway Dev 发布

23:35 Runway：News（网页）精选 58 Runway 官网以 Cookie 设置页面代替了产品介绍，未提供 Runway Dev 的功能、参数、可用性等任何具体信息。产品更新图像生成多模态视频推荐理由： Runway 把视频、图像、音频生成整合成一个统一 API，加上不用客户数据训练的承诺，对需要快速集成 AI 媒体的产品团队来说是省心选择，技术层面虽无新模型，但集成价值明显。 23:25 Replit ⠕ @ Replit 精选 68 本周新功能 🚀 Replit 社区档案--vibe coders 的工作证明。你的档案，你的展示。获取你的智能体使用和检查点的活跃度图表，外加面向专业用户的 Replit 力量排名。登录，认领你的档案，挑选你最棒的项目，与朋友分享你的数据。立即查看 → http://replit.com/community 智能体产品更新编码推荐理由： Replit 给 vibe coders 加上了个人主页和工作证明，用活动图和排名展示 agent 使用，让 AI 编程社区有了社交层，但实质还是功能小更新，对非重度用户意义有限。 23:25 OpenRouter @ OpenRouter 精选 65 新功能：聊天室一键ZDR（零数据保留）在完全隐私保护下横向对比模型：https://openrouter.ai/chat 产品更新推荐理由： OpenRouter 聊天室新加了一键 ZDR，对比模型时请求数据不存储，注重隐私的开发者会开心，但毕竟只是个开关，算不上大新闻。 22:33 Mistral AI：News（网页）精选 70 Robostral Navigate：Mistral AI 首个具身导航模型 Robostral Navigate 是 Mistral AI 首个具身导航模型（8B 参数），仅用单 RGB 摄像头，在 R2R-CE 验证集上取得 76.6%（unseen）和 79.4%（seen）的成功率，超越最佳单摄像头方法 9.7 个百分点，超越使用深度或多摄像头的系统 4.5 个百分点。模型通过 pointing 预测目标坐标并结合强化学习持续改进，全部在模拟中训练（约 40 万轨迹、6000 场景），采用 prefix-caching 实现高效训练。通用适配轮式、腿式和飞行机器人，能适应真实环境中未训练的障碍。具身智能多模态模型发布推荐理由： Mistral 首个具身导航模型，只用单 RGB 摄像头就在未见环境中跑赢深度传感器方案，对机器人行业是个真信号，做物流和制造的可以仔细看看。 21:22 字节 Seed：Research Feed（网页内嵌数据）精选 78 Seedream 5.0 Pro 发布：不止"生成"，更懂"设计" 字节 Seed 今日发布多模态图像

产品更新图像生成多模态视频智能体编码具身智能模型发布 GitHub MCP/工具开源/仓库 OpenAI 安全/对齐行业动态论文/研究 Anthropic 部署/工程政策/监管 arXiv 推理 Hugging Face 开源生态数据/训练大佬观点教程/实践 Meta Microsoft 现象/趋势 Google 评测/基准

AI HOT · 2026-07-09 03:45

AlayaWorld：长程可玩视频世界生成

10:18 HuggingFace Daily Papers（社区热门论文）精选 73 AlayaWorld 是一个全栈开源框架，用于构建交互式生成世界。该框架支持开放式实时交互，用户可自由导航并执行战斗、施法、召唤怪物等多种动作。AlayaWorld 将数据准备、模型架构、训练、推理加速和部署统一在模块化可扩展的架构中，并发布了可复现流程、参考实现、评估工具和完整文档，为生成世界模型的未来研究与实时应用奠定基础。 arXiv 具身智能开源/仓库视频推荐理由： AlayaWorld 把生成世界从 demo 变成了可交互的全栈开源框架，放出了完整 pipeline，对做游戏和具身智能的团队来说是一套可以立刻跑起来的工具链，值得落地尝试。

arXiv 具身智能开源/仓库视频

AI HOT · 2026-07-09 03:45

Nemotron-Labs-Diffusion：统一自回归、扩散与自我推测解码的三模式语言模型

10:18 HuggingFace Daily Papers（社区热门论文）精选 72 Nemotron-Labs-Diffusion 是一种三模式语言模型，通过联合自回归（AR）和扩散损失训练，在单一架构中统一了 AR、扩散和自我推测解码。研究显示 AR 与扩散目标互补：扩散增强前瞻规划，AR 提供从左至右的语言先验。自我推测模式下，扩散充当草稿模型、AR 负责验证，其接受率和实际设备效率均优于多 token 预测（MTP）。在最优化采样器下，单次前向传播产出 token 数比自我推测最多高 76.5%。该系列包含 3B、8B、14B 参数的基础、指令和视觉语言模型，在准确率和速度上均超越现有开源 AR 和扩散 LM。例如 8B 模型单次前向解码 token 数是 Qwen3-8B 的 6 倍，在 GB200 GPU 上使用 SGLang 运行 SPEED-Bench 时吞吐量提升 4 倍。 arXiv 多模态推理模型发布推荐理由： NVIDIA 把自回归和扩散塞进同一个模型，吞吐量拉高 4 倍，做实时应用的团队可以开始换架构了。

arXiv 多模态推理模型发布

AI HOT · 2026-07-09 03:45

蚂蚁集团旗下Robbyant开源LingBot-Vision：1B参数边界中心视觉基础模型，用于密集空间感知

11:24 MarkTechPost（RSS）精选 71 蚂蚁集团旗下具身智能公司Robbyant开源LingBot-Vision，一套自监督视觉Transformer家族，专为密集空间感知设计。旗舰ViT-g/16参数约1.1B，采用掩膜边界建模训练，将边界作为原生预训练信号。在密集空间任务中，该1B模型匹配或超越参数规模高达7倍的大模型（如7B DINOv3）。模型以Apache-2.0许可证在Hugging Face开源，提供ViT-g、ViT-L（300M）、ViT-B（86M）、ViT-S四个规模。具身智能多模态模型发布推荐理由：在视觉基础模型里把边界当作核心信号，这个思路很反常识，1B模型在深度估计上超过7B的DINOv3，做机器人的可以认真看看。

具身智能多模态模型发布

AI HOT · 2026-07-09 02:36

Pulpie：用于清理网络的Pareto最优模型

09:43 Hacker News 热门（buzzing.cc 中文翻译）精选 75 Pulpie是一族Pareto最优模型，用于从HTML页面提取主要内容。其最小模型pulpie-orange-small（210M参数）在WebMainBench上取得0.862的ROUGE-5 F1分数，接近600M参数的Dripper（0.864），但成本仅1/20。在NVIDIA L4 GPU上，Pulpie处理速度13.7页/秒，Dripper仅0.68页/秒。清理10亿页HTML，Pulpie成本约$7,900，Dripper需$159,000。模型采用编码器架构，单次前向传播即可标记每个HTML块为内容或模板，已在HuggingFace开源。 Hugging Face 开源生态数据/训练模型发布推荐理由：做网页清洗的同行该更新工具了，Pulpie 以二十分之一的成本追平 SOTA 质量，而且开箱即用，是今年数据管线里最值得换的组件之一。

Hugging Face 开源生态数据/训练模型发布

AI HOT · 2026-07-09 01:16

使用来自 @SpaceXAI 的 Grok 4.5，一旦它上线，无需更改代码。 ~x-ai/grok-latest 始终路由到最新的 Grok。现在指向它（今天为 Grok 4.3），当 4.5 发布时它会自动升级到 4.5。尝试：https://openrouter.ai/~x-ai/grok-latest

23:55 OpenRouter @ OpenRouter 精选 68 xAI 产品更新推理推荐理由： OpenRouter 的 grok-latest 别名让开发者零代码升级到 Grok 4.5，虽然是个小功能，但省掉了版本切换的繁琐，用 Grok 做产品的团队现在就该把端点切过去。 23:35 Runway：News（网页）精选 58 Runway Dev 发布 Runway 官网以 Cookie 设置页面代替了产品介绍，未提供 Runway Dev 的功能、参数、可用性等任何具体信息。产品更新图像生成多模态视频推荐理由： Runway 把视频、图像、音频生成整合成一个统一 API，加上不用客户数据训练的承诺，对需要快速集成 AI 媒体的产品团队来说是省心选择，技术层面虽无新模型，但集成价值明显。 23:25 Replit ⠕ @ Replit 精选 68 本周新功能 🚀 Replit 社区档案--vibe coders 的工作证明。你的档案，你的展示。获取你的智能体使用和检查点的活跃度图表，外加面向专业用户的 Replit 力量排名。登录，认领你的档案，挑选你最棒的项目，与朋友分享你的数据。立即查看 → http://replit.com/community 智能体产品更新编码推荐理由： Replit 给 vibe coders 加上了个人主页和工作证明，用活动图和排名展示 agent 使用，让 AI 编程社区有了社交层，但实质还是功能小更新，对非重度用户意义有限。 23:25 OpenRouter @ OpenRouter 精选 65 新功能：聊天室一键ZDR（零数据保留）在完全隐私保护下横向对比模型：https://openrouter.ai/chat 产品更新推荐理由： OpenRouter 聊天室新加了一键 ZDR，对比模型时请求数据不存储，注重隐私的开发者会开心，但毕竟只是个开关，算不上大新闻。 22:33 Mistral AI：News（网页）精选 70 Robostral Navigate：Mistral AI 首个具身导航模型 Robostral Navigate 是 Mistral AI 首个具身导航模型（8B 参数），仅用单 RGB 摄像头，在 R2R-CE 验证集上取得 76.6%（unseen）和 79.4%（seen）的成功率，超越最佳单摄像头方法 9.7 个百分点，超越使用深度或多摄像头的系统 4.5 个百分点。模型通过 pointing 预测目标坐标并结合强化学习持续改进，全部在模拟中训练（约 40 万轨迹、6000 场景），采用 prefix-caching 实现高效训练。通用适配轮式、腿式和飞行机器人，能适应真实环境中未训练的障碍。具身智能多模态模型发布推荐理由： Mistr

xAI 产品更新推理图像生成多模态视频智能体编码具身智能模型发布 GitHub MCP/工具开源/仓库 OpenAI 安全/对齐行业动态论文/研究 Anthropic 部署/工程政策/监管 arXiv Hugging Face 开源生态数据/训练大佬观点教程/实践 Meta Microsoft 现象/趋势 Google 评测/基准

AI HOT · 2026-07-09 01:16

语言模型中的全局工作空间

2 4 信源 · 1天前

AI HOT · 2026-07-09 00:00

蚂蚁集团周俊AICon演讲：从Token数量到Token密度，万亿参数模型效率优先

09:10 公众号：蚂蚁百灵（Ling）精选 64 蚂蚁集团副总裁周俊在AICon演讲指出，万亿参数模型每运行15分钟算力成本约等于一辆特斯拉，效率是智能体时代最需解决的问题。团队提出从“更多Token”转向“更高Token密度”策略，采用7份Lightning Attention加1份MLA的混合线性注意力架构，使256K长上下文成本从指数级降至线性级，算力更多用于思考。通过Kpop算法区分工具调用与自然语言Token，结合思维链剪枝、自蒸馏等，Token输出减少约4倍而能力不降。在LongBench、BFCL等基准上提升显著，千亿参数模型在Agent任务中超越部分更大模型；小模型flash吞吐达2.4倍，五轮对话成本下降10倍以上。智能体大佬观点推理推荐理由：蚂蚁百灵副总裁周俊这次分享，把大模型效率问题从零散优化推到了架构、训练、智能体协同设计的范式层面，7+1 混合注意力方案和 Kpop 算法对做模型的人是实质参考。

智能体大佬观点推理