标签

全栈

Gemma 4 多令牌预测:投机解码让推理速度翻三倍

来源:infoq.com 24
大模型推理的瓶颈从来不是算力不够,而是逐令牌串行生成这一固有约束——每吐出一个 token 都要等上一轮前向传播完成。Gemma 4 引入的多令牌预测(Multi-Token Prediction, MTP)起草器,配合投机解码(speculative decoding),把这条串行链路变成了并行流水线:起草器一口气猜出多个 token,主模型一次前向...

Vivado 免费版不再支持 Linux——FPGA 开发者的出路在哪里

来源:my.oschina.net 31
AMD(Xilinx)把 Vivado 免费版的 Linux 支持砍了。理由直白:免费用户不贡献收入,Linux 移植维护要花钱,那就砍。这对大量依赖 Linux 环境做 FPGA 开发的学生、独立开发者和小团队来说,是一记闷棍。 Vivado 免费版(Web Pack / ML Standard Edition)一直是很多人接触 Xilinx FPG...

DeepSeek 的算法杠杆:如何用推理优化撬动硬件生态

来源:oschina.net 23
大模型从实验室走向产业,推理阶段的成本才是真正的生死线。训练一次可以咬牙扛住,但推理要跑无数次——每一次请求都在烧算力、烧显存、烧电费。DeepSeek 近期被技术分析师 Bookworm Engineer 拆解的战略意图,指向一个更深的命题:算法创新不只是让模型更聪明,而是重新定义硬件该怎么造、该怎么卖、该怎么用。 大模型推理的瓶颈不是"GPU 太少...

RAG 的下一站:能自己改代码、跑实验的知识底座

来源:my.oschina.net 13
去年你刚把 RAG pipeline 搭起来,向量库选了 Milvus,chunk 策略调了几轮,topK 从 5 改到 10 又改回 3——上线后效果还行,但每次新增文档都要人工造问答对验证检索质量。今年再看,有人已经让知识库自己改检索算法、自己跑 A/B 测试、自己决定哪版参数留下来。这不是噱头,是商汤开源的那套智能知识底座正在做的事。 大部分团队...

BBS-GO 4.4:前后端架构统一、Docker 部署与 SEO 全面升级

来源:oschina.net 30
社区和问答平台 BBS-GO 刚发布 v4.4.0,这次不是功能堆叠,而是把底层技术栈和部署体验做了一次系统性翻新。如果你之前用过 BBS-GO 或者正在选型轻量级论坛方案,这个版本值得重新评估——前后端运行架构统一了,SPA 的构建和部署更顺滑,Docker 支持更强,SEO 也不再是短板。 BBS-GO 的后端一直用 Go 构建,4.4 版本对 G...

当 CEO 说"用 AI 替代度量者",你的岗位离自动化还有多远

来源:oschina.net 15
Cloudflare 刚交出史上最好的财报——创纪录营收、强劲自由现金流——然后裁掉了约 20% 的员工,大约 1100 人。CEO Matthew Prince 没有回避质疑,直接在《华尔街日报》发了一篇署名文章,标题就是《我是如何决定用 AI 替代哪些员工的》。他把被裁岗位的人归为一类:度量者(measurers)——那些主要工作是"看、数、报"而...

用 Firefox 直接刷板子:Web Serial API 把浏览器变成硬件开发工具

来源:oschina.net 19
过去给一块 CircuitPython 板子刷固件、读传感器数据,你得先装个串口终端——macOS 上是 或 ,Windows 上找 PuTTY,Linux 上折腾 参数。现在 Firefox 和 Adafruit 联手把这件事搬进了浏览器:打开网页,选端口,直接读写串口,零桌面依赖。 Web Serial API 是 Chromium 社区几年前提出...

从容灾到自治:下一代数据库可靠性的实战路线

来源:oschina.net 13
数据库的高可用和容灾,过去是"有钱才玩得起"的奢侈品——双机房、专线、存储级复制,动辄百万起步。但今天,云原生和自治数据库正在把这套能力下沉到每个企业。5 月 30 日金仓社区在上海举办的「KING 2026 大咖面对面」活动,就把主题钉在了这个方向:下一代数据可靠性,从容灾到自治。 政企、金融、制造、工业互联网——这些行业的共同痛点是:数据不能丢、服...