PostgreSQL bytea_output：二进制数据的输出格式之争

预计阅读时间：8 分钟

PostgreSQL 的 bytea 类型用于存储二进制数据——图片、加密密钥、序列化对象等。但同一个二进制值，在不同客户端眼里可能长得完全不一样。决定这个"长相"的，就是 GUC 参数 bytea_output。

两种格式，两种面孔

bytea_output 有两个可选值：

hex——PostgreSQL 9.0 赧起的默认值。输出以 \x 开头，后面紧跟十六进制字符串。例如，一个包含字节 0xDE 0xAD 0xBE 0xEF 的值输出为 \xdeadbeef。紧凑、可读、传输效率高。
escape——9.0 之前的唯一格式，也是传统格式。非打印字节用 \ooo（三位八进制）表示，打印字节直接输出或用 \\ 转义反斜杠。同样的 0xDEADBEEF，escape 输出为 \336\255\276\357。冗长、晦涩，但它是老客户端唯一能理解的方言。

在 psql 里直接对比：

-- 创建一张表，插入同样的二进制数据
CREATE TABLE bin_demo (id int, data bytea);
INSERT INTO bin_demo VALUES (1, '\xDEADBEEF');

-- hex 格式（默认）
SET bytea_output = 'hex';
SELECT data FROM bin_demo WHERE id = 1;
-- 结果: \xdeadbeef

-- escape 格式
SET bytea_output = 'escape';
SELECT data FROM bin_demo WHERE id = 1;
-- 结果: \336\255\276\357

同一个值，两种输出。数据库内部存储完全不变，bytea_output 只影响发给客户端的文本表示。

为什么这个参数还在折腾人？

既然 hex 从 9.0 赧就是默认，为什么还要关心 escape？答案藏在客户端驱动的历史包袱里。

部分老版本的 JDBC 驱动、PHP 的 pg_escape_bytea()、某些早期的 ORM 框架，只认识 escape 格式。当它们收到 \xdeadbeef 时，要么报解析错误，要么把 \x 当成转义序列处理，导致数据损坏。

典型症状：

查询 bytea 列时客户端抛出"invalid hexadecimal digit"或类似异常。
读取出来的二进制数据比预期长了一倍——因为 hex 字符串被当作原始字节存储了。
某些 ORM 在写入时用 escape 编码，读取时却期望 hex，往返不一致。

实战排查：定位 bytea 格式问题

下面是一个完整的排查脚本，可以在任何 PostgreSQL 环境中运行：

-- 1. 查看当前 session 的 bytea_output
SHOW bytea_output;

-- 2. 查看全局默认值（来自 postgresql.conf 或 ALTER SYSTEM）
SELECT name, setting, source
  FROM pg_settings
 WHERE name = 'bytea_output';

-- 3. 查看是否有数据库级或角色级覆盖
SELECT datname, setconfig
  FROM pg_db_role_setting
 WHERE setconfig::text LIKE '%bytea_output%';

-- 4. 快速验证：用两种格式分别输出，确认客户端能否正确解析
SET bytea_output = 'hex';
SELECT data FROM bin_demo;

SET bytea_output = 'escape';
SELECT data FROM bin_demo;

-- 5. 如果老驱动需要 escape，在连接级固定
-- 在连接字符串或连接后执行：
SET bytea_output = 'escape';

如果 SHOW bytea_output 返回 hex，而你的老驱动报错，最快的修复不是改全局配置，而是在应用连接池的初始化 SQL 里加一句 SET bytea_output = 'escape'。

配置层级与优先级

bytea_output 是一个典型的 GUC，支持多层级设置，优先级从高到低：

层级	设置方式	适用场景
Session	`SET bytea_output = 'escape'`	单个连接临时切换
Function	`SET bytea_output = 'escape'` 在函数定义中	特定函数内强制格式
Database	`ALTER DATABASE mydb SET bytea_output = 'escape'`	某个数据库的所有连接
Role	`ALTER ROLE old_app SET bytea_output = 'escape'`	某个用户的所有连接
Global	`postgresql.conf` 中 `bytea_output = escape`	整个实例默认

推荐做法：不要改全局默认。如果只有某个老应用需要 escape，用 ALTER ROLE 精确命中：

-- 只给老应用使用的角色设置 escape，其他连接不受影响
ALTER ROLE legacy_app_user SET bytea_output = 'escape';

-- 验证
SELECT rolname, rolconfig
  FROM pg_roles
 WHERE rolname = 'legacy_app_user';

这样，现代驱动继续享受 hex 的紧凑，老驱动拿到它能理解的格式，互不干扰。

Python 驱动的实际行为

以 psycopg2 / psycopg3 为例，现代驱动直接接收二进制数据（不经过文本表示），因此 bytea_output 对它们几乎无影响。但如果你用 pg8000 等纯 Python 驱动，或者通过文本协议交互，格式就很重要了：

import psycopg2

conn = psycopg2.connect("dbname=test user=postgres")
cur = conn.cursor()

# psycopg2 以二进制协议接收 bytea，格式参数无关
cur.execute("SELECT data FROM bin_demo WHERE id = 1")
row = cur.fetchone()
print(row[0])  # 输出: b'\xde\xad\xbe\xef'  —— 原始 bytes

# 但如果用 copy_expert 导出文本格式，bytea_output 就生效了
cur.execute("SET bytea_output = 'hex'")
with open('/tmp/bin_hex.csv', 'w') as f:
    cur.copy_expert("COPY bin_demo TO STDOUT WITH CSV", f)

cur.execute("SET bytea_output = 'escape'")
with open('/tmp/bin_esc.csv', 'w') as f:
    cur.copy_expert("COPY bin_demo TO STDOUT WITH CSV", f)

conn.close()

导出的 CSV 文件中，hex 版本会看到 \xdeadbeef，escape 版本会看到 \336\255\276\357。任何下游解析这个 CSV 的程序，必须知道用的是哪种格式。

决策清单

遇到 bytea 相关问题时，按这个顺序走：

确认客户端驱动版本——升级驱动通常比降级数据库配置更健康。如果驱动已支持 hex，不需要任何改动。
确认问题范围——是所有连接还是某个老应用？用 ALTER ROLE 精确覆盖，不要动全局。
检查 COPY 和导出逻辑——文本导出受 bytea_output 影响，二进制协议不受。确保下游消费者能解析对应格式。
不要在存储层做格式转换——bytea_output 只影响输出表示，存储始终是内部二进制。不要为了"兼容"而在应用层手动 encode/decode，那只会制造更多 bug。
新项目直接用 hex——它是 15 年前的默认值了。如果还在写新代码却被迫用 escape，说明该换驱动了。

bytea_output 是一个安静的参数，大多数时候你不会注意到它。但当你踩到老驱动的格式坑时，理解它的层级和作用范围，能让你用一行 ALTER ROLE 精准止血，而不是在全局配置里留下一个让所有人困惑的 escape。