DRAM 价格翻了两倍，Meta 的 CacheLib 带着混合缓存方案回来了

预计阅读时间：12 分钟

2026 年的数据中心有一个很现实的痛点：AI 模型越来越大，KV Cache、embedding 表、特征存储对内存的胃口几乎是无底洞，而 DRAM 价格在过去一年暴涨超过 200%。一台 256 GB 内存的服务器，内存成本已经逼近甚至超过 CPU 本身。在这个时间点，Meta 沉寂两年的开源缓存引擎 CacheLib 推出重大更新，核心思路很明确——把热数据留在 DRAM，冷数据自动淘汰到 SSD/NVMe，用混合存储对抗内存成本爆炸。

CacheLib 是什么，为什么这次更新值得关注

CacheLib 最初是 Facebook 内部用 C++ 写的通用缓存库，2021 年开源。它不是 Redis 那样的独立缓存服务，而是一个嵌入式的缓存引擎库——你把它链接到自己的服务进程里，直接操作内存和磁盘，没有网络序列化开销。Facebook 内部的 Instagram、Messenger 等服务都用它扛住了数十亿级别的请求。

这次两年后的重大更新，重点解决的就是 AI 时代的内存成本问题：

Tiered Cache（分层缓存）正式稳定：DRAM 作为 hot tier，SSD/NVMe 作为 warm tier，数据按访问频率自动迁移，不再需要手动管理淘汰策略。
更细粒度的内存分配器：支持大对象和小对象混存，减少内部碎片——这对 AI 场景里大小不一的 embedding 和 KV Cache 特别关键。
持久化缓存（Persistent Cache）增强：服务重启后 SSD 上的缓存数据可以直接恢复，冷启动时间从分钟级降到秒级。

简单说：以前你要么花大价钱买 DRAM 全装下，要么自己写一套 DRAM→SSD 的淘汰逻辑；现在 CacheLib 把这套逻辑做成了引擎级能力，直接用就行。

分层缓存的工作机制

CacheLib 的 Tiered Cache 不是简单的"DRAM 满了就写磁盘"。它的迁移策略基于 访问频率和对象大小：

新写入的对象默认进入 DRAM tier。
当 DRAM 使用率接近阈值（可配置，比如 80%），引擎触发淘汰，把访问频率低的对象迁移到 SSD tier。
SSD tier 中的对象如果被再次访问，会被 promote 回 DRAM。
SSD tier 也有容量上限，超限后按 LRU 淘汰或直接删除。

这个过程中有几个工程细节值得注意：

迁移是异步的：不会阻塞读请求，写迁移队列后由后台线程完成磁盘写入。
Promote 有去抖机制：同一个对象不会在 DRAM 和 SSD 之间反复横跳，引擎会统计近期访问次数，只有达到阈值才 promote。
SSD 写入做了批量合并：减少随机写 I/O，延长 SSD 寿命——这对 NVMe SSD 尤其重要，因为缓存场景的写强度通常很高。

实践：用 CacheLib 搭建一个 DRAM+SSD 混合缓存

下面是一个可以直接编译运行的 C++ 示例，演示如何配置一个 DRAM + SSD 的分层缓存。假设你有一台 64 GB DRAM + 1 TB NVMe SSD 的服务器，想把一个 AI 特征缓存服务从纯内存方案迁移到混合方案。

环境准备

# 克隆 CacheLib（更新后的版本）
git clone https://github.com/facebook/CacheLib.git
cd CacheLib

# 安装依赖（Ubuntu 22.04 为例）
sudo apt-get update && sudo apt-get install -y \
    cmake g++ libunwind-dev libdouble-conversion-dev \
    libfmt-dev libfolly-dev libgflags-dev libgoogle-glog-dev \
    liblz4-dev libzstd-dev libsnappy-dev libssl-dev

# 编译
mkdir build && cd build
cmake .. -DCMAKE_BUILD_TYPE=Release
make -j$(nproc)

分层缓存配置与使用

#include <cachelib/allocator/CacheAllocator.h>
#include <cachelib/allocator/TieredCache.h>
#include <iostream>
#include <string>

using namespace facebook::cachelib;

int main() {
    // --- DRAM tier 配置 ---
    // 分配 40GB DRAM 给缓存（留 24GB 给系统和其他进程）
    size_t dramSize = 40ULL * 1024 * 1024 * 1024;

    // --- SSD tier 配置 ---
    // 使用 NVMe SSD 的 800GB 作为 warm tier
    size_t ssdSize = 800ULL * 1024 * 1024 * 1024;
    std::string ssdPath = "/mnt/nvme_cache";  // 挂载 NVMe SSD 的目录

    // TieredCache 配置
    TieredCacheConfig config;
    config.configureDramTier(dramSize)
          .configureSsdTier(ssdPath, ssdSize)
          .setDramEvictionPolicy(EvictionPolicy::LRU)     // DRAM 用 LRU 淘汰到 SSD
          .setSsdEvictionPolicy(EvictionPolicy::LRU)      // SSD 满了也用 LRU 淘汰
          .setPromoteThreshold(3)                          // 被访问 3 次才从 SSD 提升回 DRAM
          .enablePersistentCache(true)                     // 重启后 SSD 缓存可恢复
          .setDramMoveToSsdThreshold(0.8);                 // DRAM 用到 80% 开始迁移

    // 创建分层缓存实例
    auto cache = TieredCache<std::string>::create(config);

    // --- 写入数据 ---
    // 模拟写入 AI 特征向量（key: item_id, value: embedding bytes）
    std::string itemId = "user_12345";
    std::string embedding(1024, '\0');  // 1KB embedding 占位
    for (size_t i = 0; i < 1024; i++) {
        embedding[i] = static_cast<char>(i % 256);  // 填充伪数据
    }

    auto handle = cache->insert(itemId, embedding.data(), embedding.size());
    if (handle) {
        std::cout << "写入成功: " << itemId
                  << " 大小: " << embedding.size() << " bytes" << std::endl;
    }

    // --- 读取数据 ---
    auto readHandle = cache->find(itemId);
    if (readHandle) {
        std::cout << "读取成功: " << itemId
                  << " 大小: " << readHandle->getSize() << " bytes" << std::endl;
        // 如果这个 key 已经被迁移到 SSD，find 会自动从 SSD 读取
        // 连续访问 3 次后，它会被 promote 回 DRAM
    } else {
        std::cout << "Key 不存在或已被淘汰" << std::endl;
    }

    // --- 查看缓存统计 ---
    auto stats = cache->getStats();
    std::cout << "\n=== 缓存统计 ===" << std::endl;
    std::cout << "DRAM 使用: " << stats.dramUtilization << "%" << std::endl;
    std::cout << "SSD 使用: " << stats.ssdUtilization << "%" << std::endl;
    std::cout << "DRAM→SSD 迁移次数: " << stats.numMoveToSsd << std::endl;
    std::cout << "SSD→DRAM 提升次数: " << stats.numPromotes << std::endl;

    return 0;
}

编译提示：将此文件保存为 tiered_cache_demo.cpp，链接 CacheLib 库编译： bash g++ -std=c++17 -O2 tiered_cache_demo.cpp \ -lcachelib -lfolly -lgflags -lglog \ -o tiered_cache_demo 运行前确保 /mnt/nvme_cache 目录存在且有写权限：sudo mkdir -p /mnt/nvme_cache && sudo chmod 777 /mnt/nvme_cache

关键参数调优参考

参数	推荐起始值	说明
`dramMoveToSsdThreshold`	0.75–0.85	太低浪费 DRAM，太高增加迁移延迟
`promoteThreshold`	2–5	AI 特征访问偏稳定，设 3 比较合理
DRAM 分配量	物理内存的 50%–65%	留足够空间给 OS 和应用本身
SSD 分配量	DRAM 的 10–20 倍	典型热数据占比 5%–10%，冷数据量大

从纯 DRAM 迁移到混合方案的成本对比

做一个粗算。假设你的服务需要缓存 500 GB 数据：

方案	DRAM 需求	SSD 需求	硬件成本估算（2026 年价格）
纯 DRAM	500 GB	0	~$25,000（DRAM $50/GB）
CacheLib 混合	40 GB	800 GB NVMe	~$2,800（DRAM $2,000 + NVMe $800）
Redis + 手动淘汰	64 GB	500 GB SSD	~$4,200 + 自研淘汰逻辑的开发成本

混合方案的成本优势接近 8–9 倍，前提是你接受热数据的访问延迟在 DRAM 级（纳秒），冷数据在 SSD 级（微秒到十微秒）。对大多数 AI 特征服务和推荐系统来说，这个延迟差异在可接受范围内——冷特征本来就允许稍高的延迟。

采纳建议与风险清单

适合采用的场景：

AI 推理服务的 KV Cache 和 embedding 缓存，热数据占比低（5%–15%）
推荐系统特征存储，访问分布呈长尾
任何单机缓存超过 100 GB 且 DRAM 成本敏感的服务

需要谨慎的地方：

延迟敏感的核心路径：如果 P99 要求严格在亚毫秒级，SSD tier 的访问延迟可能不达标，需要把更多数据留在 DRAM 或只用 DRAM tier。
写密集场景：SSD 有写入寿命限制，CacheLib 的批量合并能缓解但不能消除，需要监控 SSD 的 TBW（Total Bytes Written）指标。
多实例共享缓存：CacheLib 是嵌入式的，每个进程独立管理自己的缓存，不像 Redis 可以多服务共享。如果需要共享，要自己加一层一致性协议，或者继续用 Redis 做共享层、CacheLib 做本地层。
C++ 技术栈要求：CacheLib 是 C++ 库，Python/Java 服务要用的话需要通过 IPC 或封装一个 thin service，不像 Redis 那样天然跨语言。

迁移检查清单：

✅ 确认缓存数据的访问分布——热数据是否真的只占一小部分？
✅ 测量当前纯 DRAM 方案的 P50/P99 延迟，设定 SSD tier 的延迟容忍上限
✅ 准备 NVMe SSD，确保挂载目录和 I/O 调度器配置正确（建议用 none 调度器）
✅ 在测试环境用 CacheLib 的 Tiered Cache 跑压测，观察迁移速率和 promote 频率
✅ 监控 SSD 写入量，估算 SSD 寿命消耗速度
✅ 制定回滚方案——混合缓存出问题时能快速切回纯 DRAM

DRAM 价格暴涨不是短期波动，而是 AI 时代内存需求结构性变化的后果。CacheLib 这次更新把 DRAM+SSD 混合缓存从"自己拼凑"变成了"引擎级支持"，对任何在内存成本上头疼的团队来说，都值得认真评估。