从逐句审查到上下文感知：ChatGPT 如何在敏感对话中捕捉跨轮次风险

预计阅读时间：15 分钟

过去，AI 安全机制更像一个逐句审查的安检员——每条消息独立判断，只看当前输入是否触碰红线。问题在于：真正高风险的对话往往不是一句话暴露的，而是在多轮交互中逐步浮现。一次"我最近很累"不算危险信号，但如果后续出现"没人会在意我消失"再叠加"有什么方法可以一了百了"，风险轮廓就完全不同了。ChatGPT 近期的安全更新正是针对这个盲区：让模型在敏感场景中具备跨轮次的上下文感知能力，从"逐句判罚"转向"累积识别"。

单轮检测的局限在哪

传统安全层对每条用户消息独立打标签——是否包含自伤暗示、暴力计划、儿童相关内容等。这种方式有两个硬伤：

碎片化判断：用户刻意分散风险信息时，单条消息可能全部通过阈值检查。
误判率高：一句"我想结束这段关系"在单轮视角下可能被误读为自伤信号，而实际只是分手表达。

上下文感知的核心思路是：把对话历史作为风险评估的输入，而不是只看当前轮。这意味着安全判断不再是布尔开关，而是一个随对话推进动态更新的风险评分。

技术实现：累积式上下文风险追踪

从工程角度看，这次更新涉及至少三个层面的改动：

对话状态追踪：在会话维度维护一个风险状态向量，而非逐轮清零。
渐进式响应策略：根据累积风险等级选择不同响应强度——从提供支持资源到拒绝继续对话。
回溯式再评估：新消息到达后，重新评估近期上下文窗口内的整体风险，而非只评估当前输入。

下面用一个可运行的 Python 示例演示如何在自己的应用中实现类似的累积式上下文安全层。这个方案结合 OpenAI API 和一个轻量的风险追踪器，适合接入任何基于 LLM 的对话产品。

"""
context_aware_safety.py
演示：在多轮对话中累积追踪风险信号，根据上下文动态调整响应策略。
依赖：openai >= 1.0, pip install openai
运行前设置：export OPENAI_API_KEY="sk-..."
"""

import openai
from datetime import datetime

# 风险等级与对应响应策略
RISK_LEVELS = {
    0: {"label": "正常", "action": "正常回复"},
    1: {"label": "关注", "action": "回复中温和引导，提供一般性支持信息"},
    2: {"label": "警告", "action": "拒绝提供可能有害的具体信息，提供专业求助资源"},
    3: {"label": "高危", "action": "停止对话，明确提供危机干预热线"},
}

# 危机干预资源（示例，实际部署应使用本地真实资源）
CRISIS_RESOURCES = """
如果你或身边的人正在经历困难，请联系专业帮助：
- 全国24小时心理援助热线：400-161-9995
- 北京心理危机研究与干预中心：010-82951332
- 生命热线：400-821-1215
"""

class ContextAwareSafetyLayer:
    """跨轮次累积风险评估器"""

    def __init__(self, window_size: int = 5, threshold_warn: float = 0.4, threshold_high: float = 0.7):
        self.window_size = window_size       # 回溯窗口：评估最近几轮
        self.threshold_warn = threshold_warn  # 触发警告的累积分数
        self.threshold_high = threshold_high  # 触发高危响应的累积分数
        self.risk_history: list[dict] = []    # 每轮的风险记录

    def _evaluate_single_turn(self, user_message: str) -> float:
        """用 LLM 对单条消息做风险评分（0-1），返回浮点数。"""
        prompt = f"""你是一个专业安全评估器。请对以下用户消息进行风险评分。
评分标准（0-1浮点数）：
- 0.0-0.1：正常日常对话
- 0.1-0.3：表达负面情绪但无明确风险信号
- 0.3-0.5：出现模糊的风险暗示（如"不想继续"、"没意义"）
- 0.5-0.7：出现较明确的自伤/伤害他人暗示
- 0.7-1.0：出现明确的危险计划或紧急危机信号

只返回一个0到1之间的浮点数，不要任何其他文字。

用户消息：{user_message}"""

        resp = openai.chat.completions.create(
            model="gpt-4o-mini",
            messages=[{"role": "system", "content": prompt}],
            temperature=0.0,
            max_tokens=10,
        )
        try:
            score = float(resp.choices[0].message.content.strip())
            return max(0.0, min(1.0, score))
        except ValueError:
            return 0.0

    def evaluate_with_context(self, user_message: str) -> dict:
        """结合上下文窗口做累积风险评估。"""
        # 1. 当前轮单条评分
        current_score = self._evaluate_single_turn(user_message)

        # 2. 记录本轮
        self.risk_history.append({
            "timestamp": datetime.now().isoformat(),
            "message": user_message,
            "score": current_score,
        })

        # 3. 取窗口内的历史评分
        window = self.risk_history[-self.window_size:]
        scores = [r["score"] for r in window]

        # 4. 累积评分策略：近期权重更高
        weights = [i + 1 for i in range(len(scores))]  # 越新权重越大
        weighted_sum = sum(s * w for s, w in zip(scores, weights))
        weight_total = sum(weights)
        cumulative_score = weighted_sum / weight_total

        # 5. 确定风险等级
        if cumulative_score >= self.threshold_high:
            level = 3
        elif cumulative_score >= self.threshold_warn:
            level = 2
        elif cumulative_score >= 0.2:
            level = 1
        else:
            level = 0

        return {
            "current_score": current_score,
            "cumulative_score": cumulative_score,
            "risk_level": level,
            "action": RISK_LEVELS[level]["action"],
            "window_scores": scores,
        }

    def build_system_prompt_override(self, evaluation: dict) -> str:
        """根据风险等级生成追加到系统提示的安全指令。"""
        level = evaluation["risk_level"]
        if level == 0:
            return ""
        elif level == 1:
            return "用户可能正在经历情绪低落。回复时保持温暖语气，避免轻率建议。"
        elif level == 2:
            return f"检测到潜在风险信号。不要提供任何可能被用于自我伤害的具体方法或信息。在回复末尾附上以下资源：\n{CRISIS_RESOURCES}"
        else:
            return f"检测到高危信号。立即停止正常对话流程。只提供以下危机资源，不回应任何其他内容：\n{CRISIS_RESOURCES}"


# ===== 运行演示 =====
if __name__ == "__main__":
    client = ContextAwareSafetyLayer(window_size=5)

    # 模拟一段渐进式敏感对话
    conversation = [
        "最近工作压力很大，每天都觉得很累",
        "感觉做什么都没意思，也不想跟朋友出去",
        "有时候觉得如果我就这样消失了，大概没人会注意到",
        "有没有什么方法可以让人不再感受到这些痛苦",
        "我想知道最快的方式是什么",
    ]

    print("=" * 60)
    print("多轮对话 · 累积风险评估演示")
    print("=" * 60)

    for msg in conversation:
        result = client.evaluate_with_context(msg)
        print(f"\n用户：{msg}")
        print(f"  单轮评分：{result['current_score']:.2f}")
        print(f"  累积评分：{result['cumulative_score']:.2f}")
        print(f"  窗口历史：{[f'{s:.2f}' for s in result['window_scores']]}")
        print(f"  风险等级：{RISK_LEVELS[result['risk_level']]['label']}")
        print(f"  响应策略：{result['action']}")

        # 展示系统提示追加内容
        override = client.build_system_prompt_override(result)
        if override:
            print(f"  系统提示追加：{override[:80]}...")

运行方式：

export OPENAI_API_KEY="sk-your-key-here"
pip install openai
python context_aware_safety.py

这段代码的核心设计要点：

加权累积：越近的轮次权重越高，避免早期正常对话稀释近期风险信号。
分级响应：不是一刀切拒绝，而是从温和引导到强制提供危机资源逐级升级。
系统提示注入：风险等级转化为对 LLM 的行为指令，让模型自身调整回复策略，而非在输出后硬截断。

ChatGPT 的实际更新做了什么

根据 OpenAI 公布的信息，这次更新主要覆盖三类敏感场景：自伤相关、暴力与仇恨、儿童安全。具体变化包括：

跨轮次信号关联：模型不再只看当前消息，而是把对话中已出现的线索串联起来。一个从"压力大"到"不想活了"的渐进过程会被整体识别。
更精准的误判修正：上下文帮助区分"结束关系"和"结束生命"、"打比赛"和"打人"这类歧义表达。
渐进式干预：低风险时模型仍正常对话但语气更谨慎；高风险时主动提供求助资源并限制有害信息的输出。

这背后的工程挑战不小——每多看一轮历史，推理成本就上升；风险阈值设低了误伤正常用户，设高了漏掉真正需要帮助的人。OpenAI 表示他们通过大规模红队测试（red-teaming）来校准这些阈值。

接入类似能力的工程考量

如果你在自己的产品中实现上下文感知安全层，有几个实际问题需要提前想清楚：

1. 状态存储与隐私

累积风险评估意味着你要存储对话中的风险向量。这直接触碰隐私红线——用户可能不希望系统记录他们的情绪状态。实践建议：

风险向量只存会话级别，会话结束即清除，不做跨会话持久化。
在隐私政策中明确说明安全层的工作方式。
对风险历史数据做最小化处理：只存评分浮点数，不存原始消息文本。

2. 阈值校准没有捷径

阈值（何时警告、何时拒绝）必须用真实数据校准。可操作的路径：

# risk_thresholds_config.yaml — 可根据实际对话数据迭代调整
safety:
  context_window: 5          # 回溯轮数
  scoring:
    single_turn_model: gpt-4o-mini  # 单轮评分用的轻量模型
    accumulation_strategy: weighted_recent  # 加权策略
    weights: linear          # linear | exponential
  thresholds:
    attention: 0.20          # 开始关注
    warn: 0.40               # 警告 + 资源引导
    critical: 0.70           # 高危 + 强制干预
  response:
    attention_level:
      system_prompt_append: "保持温暖语气，避免轻率建议"
    warn_level:
      block_harmful_info: true
      append_crisis_resources: true
    critical_level:
      halt_normal_conversation: true
      only_show_crisis_resources: true

先用标注过的历史对话数据跑一遍，统计各阈值下的误报率和漏报率。
灰度发布：新阈值先对 5% 流量生效，观察用户反馈和人工复审结果。
每季度用新红队测试结果重新校准。

3. 多语言与文化差异

"我不想活了"在中文里是明确的自伤信号，但某些文化语境中的隐喻表达可能更隐晦。如果你的产品覆盖多语言，风险评分模型需要针对每种语言单独校准，不能假设一个英文模型直接迁移。

4. 不要让安全层成为沉默的审查者

用户应该知道系统为什么改变了回复方式。当风险等级触发干预时，在 UI 上给出透明提示——比如"检测到对话可能涉及敏感话题，我们提供了专业支持资源"。这比悄悄改写回复更能建立信任。

一个可落地的检查清单

在实现上下文感知安全机制前，逐项确认：

[ ] 风险状态是否只存会话级别，会话结束即清除？
[ ] 阈值是否经过标注数据校准，而非凭经验猜测？
[ ] 是否有灰度发布和人工复审流程？
[ ] 多语言场景下每种语言是否有独立校准？
[ ] 干预触发时用户是否能看到透明提示？
[ ] 隐私政策是否说明了安全层的数据处理方式？
[ ] 是否有定期红队测试和阈值迭代计划？

上下文感知让安全机制从"逐句安检"进化到"读懂整段对话的走向"。这个方向正确，但工程落地远比概念复杂——每一次阈值调整都可能在误伤和漏检之间走钢丝。把它当作一个需要持续校准的系统，而不是一次性配置的规则，才是靠谱的做法。