从 PGDay Boston 2026 看 PostgreSQL 的演进与运维实践

预计阅读时间：11 分钟

PGDay Boston 2026 是这场会议的首次亮相，却已经让人感受到 PostgreSQL 社区那种超越单一雇主、超越单一项目的凝聚力。一天的议程里，既有回溯项目起源的历史视角，也有直击生产痛点的锁管理、Patroni 同步复制、分区策略等实战议题。以下是从几场关键演讲中提炼的技术要点，以及可以直接拿去用的实践片段。

从 Ingres 到 Postgres：开源项目的生命力不在代码本身

Michael Stonebraker 的主题演讲 "Where Did Postgres Come From?" 追溯了 Postgres 诞生之前的 Ingres 时代。最让人印象深刻的一点是：Postgres 本有可能像许多学术项目一样，止步于论文和原型。它之所以能走到今天，是因为 UC Berkeley 之外的人开始接管它——社区在代码之外建立了持续的经营和传承。

这对当下任何依赖开源项目的人来说都是一条提醒：技术选型时，不仅要看功能列表和性能指标，还要看社区是否有足够的 stewardship 能力——有没有人在持续维护、有没有人在边界情况下做测试、有没有机制让新贡献者融入。Postgres 的长寿恰恰证明了这一点。

锁管理：从恐惧到可观测

Brian Brennglass 的 "Managing and Observing Locks" 用一系列现场 demo 把一个 intimidating 的话题变得可触摸。Postgres 的锁体系庞杂，但核心思路是：先观测，再干预。

生产中最常见的锁问题往往不是死锁，而是某些长事务持有行锁或表锁过久，导致后续操作排队。以下是一个可以直接运行的观测查询，帮你快速定位阻塞链：

-- 查看当前被阻塞的会话及其阻塞源头
SELECT
  blocked.pid          AS blocked_pid,
  blocked.query        AS blocked_query,
  blocking.pid         AS blocking_pid,
  blocking.query       AS blocking_query,
  blocked.wait_event_type AS wait_type,
  blocked.wait_event   AS wait_event
FROM pg_stat_activity blocked
JOIN pg_locks blocked_locks
  ON blocked.pid = blocked_locks.pid
  AND blocked_locks.granted IS FALSE
JOIN pg_locks blocking_locks
  ON blocked_locks.locktype = blocking_locks.locktype
  AND blocked_locks.database IS NOT DISTINCT FROM blocking_locks.database
  AND blocked_locks.relation IS NOT DISTINCT FROM blocking_locks.relation
  AND blocked_locks.page IS NOT DISTINCT FROM blocking_locks.page
  AND blocked_locks.tuple IS NOT DISTINCT FROM blocking_locks.tuple
  AND blocked_locks.virtualxid IS NOT DISTINCT FROM blocking_locks.virtualxid
  AND blocked_locks.transactionid IS NOT DISTINCT FROM blocking_locks.transactionid
  AND blocked_locks.classid IS NOT DISTINCT FROM blocking_locks.classid
  AND blocked_locks.objid IS NOT DISTINCT FROM blocking_locks.objid
  AND blocked_locks.objsubid IS NOT DISTINCT FROM blocking_locks.objsubid
  AND blocking_locks.granted IS TRUE
JOIN pg_stat_activity blocking
  ON blocking_locks.pid = blocking.pid
WHERE blocked.wait_event_type = 'Lock';

运行后你会看到谁在等谁——从 blocking_query 往下追，通常就能找到那个该终止或优化的事务。注意 IS NOT DISTINCT FROM 的用法，它正确处理了 NULL 值的比较，这在锁查询中很关键，因为许多字段（如 relation、page）对某些锁类型是 NULL。

Patroni 同步复制 + Kubernetes：选举与故障场景

Shree Vidhya Sampath 的演讲把 Patroni 在 Kubernetes 上跑同步复制时的选举行为和故障模式讲得很清晰。同步复制的好处是零数据丢失（RPO=0），代价是写入延迟增加，以及主库故障时需要更谨慎的 failover 逻辑。

以下是一个 Patroni 同步复制配置片段，适合在 K8s 环境中使用。根据你的集群规模调整 maximum_lag_on_failover 和 synchronous_node_count：

# patroni.yaml — 同步复制关键配置段
bootstrap:
  dcs:
    synchronous_mode: true
    synchronous_mode_strict: false   # 严格模式下无同步副本时主库会拒绝写入
    maximum_lag_on_failover: 1048576 # 1MB，超过此延迟的副本不参与选举

postgresql:
  parameters:
    synchronous_commit: on
    synchronous_standby_names: '*'   # 让 Patroni 动态管理同步副本列表

# 建议同步副本数 ≥ 2，避免单副本故障后主库卡写
synchronous_node_count: 2

几个实操要点：

synchronous_mode_strict: false 是一个关键选择。设为 true 时，如果所有同步副本都宕机，主库会拒绝所有写入——这在生产中往往是不可接受的。设为 false 则允许临时降级为异步，牺牲 RPO 换取可用性。
synchronous_standby_names: '*' 让 Patroni 根据 DCS（如 etcd）中的节点状态动态指定同步副本，而不是硬编码节点名。这在 K8s 中 Pod IP 会变的场景下尤其重要。
演讲中还提到了一个容易被忽视的故障模式：网络分区时，DCS 侧认为主库已死并触发选举，但旧主库自己还没意识到。Patroni 通过 pg_ctl promote 前的 DCS 写锁来防止双主，但你需要确保 etcd 本身的可用性不低于 Postgres 集群。

分区策略：性能与维护的平衡术

Ryan Booz 的分区演讲是一个很好的 refresher。Postgres 10 引入声明式分区后，11 补上了分区裁剪（partition pruning）的运行时优化，12 支持了外键引用分区表，14 进一步改善了分区 prune 的性能。但分区从来不是"建了就快"——它有明确的适用场景和代价。

一个实用的分区创建示例，按月分区订单表：

-- 创建按月分区的订单表（Postgres 14+）
CREATE TABLE orders (
  id         BIGSERIAL,
  customer_id INT,
  order_date  DATE NOT NULL,
  amount      NUMERIC(10,2)
) PARTITION BY RANGE (order_date);

-- 创建分区（可批量生成）
CREATE TABLE orders_2026_01 PARTITION OF orders
  FOR VALUES FROM ('2026-01-01') TO ('2026-02-01');
CREATE TABLE orders_2026_02 PARTITION OF orders
  FOR VALUES FROM ('2026-02-01') TO ('2026-03-01');
CREATE TABLE orders_2026_03 PARTITION OF orders
  FOR VALUES FROM ('2026-03-01') TO ('2026-04-01');

-- 默认分区兜底，防止插入越界数据报错
CREATE TABLE orders_default PARTITION OF orders DEFAULT;

-- 在分区键上建索引（每个分区独立索引）
CREATE INDEX idx_orders_2026_01_date ON orders_2026_01 (order_date);

关键 tradeoff：

查询必须带分区键条件，否则会扫描所有分区（即 partition pruning 不生效）。如果你的典型查询是 WHERE customer_id = ? AND order_date BETWEEN ? AND ?，分区裁剪可以生效；但如果只有 WHERE customer_id = ?，分区反而增加开销。
默认分区是安全网，但也意味着如果你忘了提前创建未来月份的分区，数据会全部落入默认分区，后续需要手动迁移。建议用脚本定期预创建未来 3-6 个月的分区。
维护窗口：分区让 DROP TABLE 替代 DELETE，归档旧数据时效率极高。但 VACUUM 仍然需要逐分区执行，分区数过多会增加日常维护负担——一般建议控制在数百个以内。

缺失功能与执行计划稳定性：刻意的选择与细致的测试

Bruce Momjian 的 "What's Missing in Postgres?" 提出了一个反直觉的视角：很多"缺失"的功能并非疏忽，而是社区在权衡不同用户群体需求后做出的有意选择。比如 Postgres 长期没有内置的连接池，是因为不同场景（短连接 OLTP vs 长连接分析）对池的行为要求不同，社区选择让 pgbouncer 和 Pgpool-II 这类外部工具来承担多样性。

Robert Haas 的 "pg_plan_advice" 则展示了另一种细致：他不仅提出了让用户对执行计划有更多控制力的方案，还专门测试了大量边界情况——那些"正常人不会想到去试"的场景。这种对 edge case 的执着，正是 Postgres 在生产环境中可靠的原因之一。

实践检查清单

把这些演讲的收获压缩成几条可执行的建议：

锁问题排查：把上面的阻塞链查询加入你的运维脚本库，遇到"会话卡住"时第一时间运行，而不是靠猜。
同步复制决策：在 K8s 上跑 Patroni 同步复制时，先明确你的 RPO/可用性优先级——synchronous_mode_strict 的选择本质上就是这个决策的配置化表达。
分区前先看查询模式：在创建分区表之前，列出你的 Top 10 查询，检查它们是否都带分区键条件。不带分区键的查询，分区只会拖慢它。
预创建分区：写一个 cron 或 K8s CronJob，每月自动创建未来 3 个月的分区，避免数据落入默认分区。
关注社区健康度：选型或升级时，除了看 release notes，也看看有多少人在做边界测试、有多少活跃的 contributor——这是 Stonebraker 历史故事给我们的最实际的启示。

PGDay Boston 2026 证明了一件事：Postgres 社区的价值不只是数据库本身，而是围绕它积累的运维经验、边界测试和取舍讨论。这些才是你在生产环境中真正需要的东西。