2026-05-25
来源:infoq.com
15
大模型推理的瓶颈从来不是算力不够,而是逐 token 生成时的串行等待——每一步都要等前一个 token 出来才能算下一个。Gemma 4 引入了多 token 预测(Multi-Token Prediction, MTP)drafter,配合推测解码(speculative decoding)把这条串行链路撕开:小模型一次猜出多个 token,大模型...
2026-05-25
来源:infoq.com
24
大模型推理的瓶颈从来不是算力不够,而是逐令牌串行生成这一固有约束——每吐出一个 token 都要等上一轮前向传播完成。Gemma 4 引入的多令牌预测(Multi-Token Prediction, MTP)起草器,配合投机解码(speculative decoding),把这条串行链路变成了并行流水线:起草器一口气猜出多个 token,主模型一次前向...
2026-05-25
来源:my.oschina.net
31
AMD(Xilinx)把 Vivado 免费版的 Linux 支持砍了。理由直白:免费用户不贡献收入,Linux 移植维护要花钱,那就砍。这对大量依赖 Linux 环境做 FPGA 开发的学生、独立开发者和小团队来说,是一记闷棍。 Vivado 免费版(Web Pack / ML Standard Edition)一直是很多人接触 Xilinx FPG...
2026-05-25
来源:oschina.net
23
大模型从实验室走向产业,推理阶段的成本才是真正的生死线。训练一次可以咬牙扛住,但推理要跑无数次——每一次请求都在烧算力、烧显存、烧电费。DeepSeek 近期被技术分析师 Bookworm Engineer 拆解的战略意图,指向一个更深的命题:算法创新不只是让模型更聪明,而是重新定义硬件该怎么造、该怎么卖、该怎么用。 大模型推理的瓶颈不是"GPU 太少...
2026-05-25
来源:my.oschina.net
13
去年你刚把 RAG pipeline 搭起来,向量库选了 Milvus,chunk 策略调了几轮,topK 从 5 改到 10 又改回 3——上线后效果还行,但每次新增文档都要人工造问答对验证检索质量。今年再看,有人已经让知识库自己改检索算法、自己跑 A/B 测试、自己决定哪版参数留下来。这不是噱头,是商汤开源的那套智能知识底座正在做的事。 大部分团队...
2026-05-25
来源:oschina.net
30
社区和问答平台 BBS-GO 刚发布 v4.4.0,这次不是功能堆叠,而是把底层技术栈和部署体验做了一次系统性翻新。如果你之前用过 BBS-GO 或者正在选型轻量级论坛方案,这个版本值得重新评估——前后端运行架构统一了,SPA 的构建和部署更顺滑,Docker 支持更强,SEO 也不再是短板。 BBS-GO 的后端一直用 Go 构建,4.4 版本对 G...
2026-05-25
来源:oschina.net
15
Cloudflare 刚交出史上最好的财报——创纪录营收、强劲自由现金流——然后裁掉了约 20% 的员工,大约 1100 人。CEO Matthew Prince 没有回避质疑,直接在《华尔街日报》发了一篇署名文章,标题就是《我是如何决定用 AI 替代哪些员工的》。他把被裁岗位的人归为一类:度量者(measurers)——那些主要工作是"看、数、报"而...
2026-05-25
来源:oschina.net
22
2026年5月23日,桌面应用框架 Electrobun 创始人 Yoav 在 X 平台扔下一枚炸弹:Electrobun 2.0 将完全脱离 Bun 运行时。理由直白而严厉——Bun 的 Rust 重写工程缺乏基本的人工代码审查和发布流程。同一天,YouTube 下载工具 yt-dlp 也宣布限制对 Bun 的支持,把 Bun 的 Rust 重写定性...
2026-05-25
来源:oschina.net
19
过去给一块 CircuitPython 板子刷固件、读传感器数据,你得先装个串口终端——macOS 上是 或 ,Windows 上找 PuTTY,Linux 上折腾 参数。现在 Firefox 和 Adafruit 联手把这件事搬进了浏览器:打开网页,选端口,直接读写串口,零桌面依赖。 Web Serial API 是 Chromium 社区几年前提出...
2026-05-25
来源:oschina.net
13
数据库的高可用和容灾,过去是"有钱才玩得起"的奢侈品——双机房、专线、存储级复制,动辄百万起步。但今天,云原生和自治数据库正在把这套能力下沉到每个企业。5 月 30 日金仓社区在上海举办的「KING 2026 大咖面对面」活动,就把主题钉在了这个方向:下一代数据可靠性,从容灾到自治。 政企、金融、制造、工业互联网——这些行业的共同痛点是:数据不能丢、服...