Digg 回来了，这次它用 AI 替掉了人工编辑

预计阅读时间：11 分钟

社交新闻网站 Digg 又一次改头换面。创始人 Kevin Rose 在 5 月 8 日开放了新版预览，定位不再是 Reddit 式的社区讨论板，而是一个 AI 驱动的新闻聚合器——实时抓取 X 上的内容，用情感分析和信号权重筛选出"真正值得关注的资讯"。这个方向并不新鲜，但 Digg 把它做成了产品，值得拆开看看。

从"人投票"到"模型投票"

旧版 Digg 的核心机制是用户 digg（投票）：谁 digg 多，谁上首页。问题很明显——投票可以被操纵，热门话题容易同质化，冷门但高质量的内容很难冒头。

新版换了个思路：把"人投票"换成"模型投票"。平台实时抓取 X 上各领域账号的发言，通过情感分析判断情绪倾向，再叠加信号权重（转发量、讨论深度、账号影响力等）做综合排序。最终目标是"追踪各领域最具影响力的声音"，把噪音滤掉，只留下信号。

本质上，这是把内容筛选从"民主投票"变成了"算法裁决"。好处是效率高、可规模化；代价是透明度下降——用户很难理解一条内容为什么被推荐或被过滤。

情感分析 + 信号权重：技术拆解

从摘要描述看，新版 Digg 的筛选管线至少包含三层：

数据采集层：实时抓取 X 上的帖子，可能通过 X API 或第三方聚合服务获取。
情感分析层：对每条内容做情绪分类（正面/负面/中性），可能还识别情绪强度。这一步决定了内容的"情绪信号"。
信号权重层：叠加结构化信号——转发数、回复数、账号 follower 数、领域标签等——计算综合得分，排序输出。

这三层组合起来，就是一个典型的"信号检测 + 噪音过滤"管线。和传统推荐系统的区别在于：它不是给个人做个性化推荐，而是给"领域"做全局筛选——找出某个话题下最具影响力的声音，而不是你最可能点击的链接。

自己搭一个迷你版：Python 新闻信号筛选管线

Digg 的完整系统很复杂，但核心逻辑可以简化成一个可运行的管线。下面这个示例用 Python 实现一个最小化的"情感分析 + 信号权重"筛选器，输入是一组模拟的 X 帖子，输出是排序后的推荐列表。

# mini_digg_filter.py — 最小化 AI 新闻信号筛选管线
# 依赖：pip install transformers torch

from dataclasses import dataclass
from transformers import pipeline

@dataclass
class Post:
    """模拟一条 X 帖子"""
    author: str
    followers: int
    text: str
    retweets: int
    replies: int
    topic: str  # 领域标签，如 "AI", "Crypto", "Climate"

def sentiment_score(text: str, analyzer) -> float:
    """用情感分析模型给帖子打情绪分，返回 -1 到 1 的连续值"""
    result = analyzer(text)[0]
    # transformers 默认输出 label: POSITIVE/NEGATIVE 和 score
    label = result["label"]
    score = result["score"]
    if label == "POSITIVE":
        return score
    else:
        return -score

def signal_weight(post: Post) -> float:
    """计算结构化信号权重：影响力 + 互动深度"""
    # 简单加权：follower 取 log 压缩，互动量直接加权
    influence = min(post.followers / 10000, 10)  # capped at 10
    engagement = (post.retweets * 2 + post.replies) / 100
    return influence + engagement

def rank_posts(posts: list[Post], topic: str, top_n: int = 5) -> list[Post]:
    """对指定领域的帖子做综合排序"""
    # 初始化情感分析管线（用 DistilBERT，轻量快速）
    analyzer = pipeline(
        "sentiment-analysis",
        model="distilbert/distilbert-base-uncased-finetuned-sst-2-english"
    )

    # 过滤领域
    filtered = [p for p in posts if p.topic == topic]

    # 综合得分 = 情感强度绝对值 × 信号权重
    # 情感强度大说明观点鲜明，信号权重大说明影响力强
    scored = []
    for p in filtered:
        sent = sentiment_score(p.text, analyzer)
        weight = signal_weight(p)
        # 用情感绝对值：强烈观点（无论正负）比中性内容更有"声音"
        composite = abs(sent) * weight
        scored.append((composite, p))

    # 按综合得分降序排列
    scored.sort(key=lambda x: x[0], reverse=True)
    return [p for _, p in scored[:top_n]]

# ---- 模拟数据 ----
mock_posts = [
    Post("ai_researcher", 52000, "GPT-5 rumors are overblown — the real leap is in reasoning chains", 340, 89, "AI"),
    Post("crypto_pundit", 89000, "Bitcoin will hit 150k by end of year, no doubt", 1200, 450, "Crypto"),
    Post("climate_scientist", 34000, "New IPCC draft shows accelerating sea level rise projections", 56, 12, "Climate"),
    Post("tech_ceo", 210000, "We just shipped our biggest feature update — check it out!", 890, 320, "AI"),
    Post("random_user", 500, "I had coffee today, it was okay", 2, 0, "AI"),
    Post("ai_startup", 15000, "Our open-source model beats Llama on benchmarks — here's the proof", 230, 67, "AI"),
    Post("crypto_trader", 12000, "Ethereum gas fees are finally reasonable again", 45, 18, "Crypto"),
    Post("climate_activist", 67000, "Policy change on carbon tax is a huge win for the movement", 180, 42, "Climate"),
]

# ---- 运行 ----
if __name__ == "__main__":
    print("=== AI 领域最具影响力的声音 ===")
    results = rank_posts(mock_posts, topic="AI", top_n=3)
    for i, p in enumerate(results, 1):
        print(f"{i}. @{p.author} ({p.followers} followers)")
        print(f"   {p.text}")
        print(f"   ↗ {p.retweets} retweets · {p.replies} replies")
        print()

    print("=== Climate 领域最具影响力的声音 ===")
    results = rank_posts(mock_posts, topic="Climate", top_n=2)
    for i, p in enumerate(results, 1):
        print(f"{i}. @{p.author} ({p.followers} followers)")
        print(f"   {p.text}")
        print(f"   ↗ {p.retweets} retweets · {p.replies} replies")

运行方式：

pip install transformers torch
python mini_digg_filter.py

几点说明：

情感分析用的是 DistilBERT 微调 SST-2 模型，纯英文，中文帖子需要换模型（比如用 uer/roberta-base-finetuned-jd-binary-chinese）。
综合得分公式 abs(sentiment) × signal_weight 是简化版。真实产品中可能用更复杂的加权，比如给负面情绪降权（避免推荐愤怒内容），或者加入时间衰减因子。
signal_weight 里的 follower 做了 capped 压缩，防止大 V 永远霸榜——这也是 Digg 旧版人工编辑需要面对的问题。

透明度是最大的悬而未决

Digg 这次转型的技术方向是合理的——用 AI 做内容筛选确实比纯投票更高效。但有几个问题没有在公开信息中看到答案：

筛选逻辑的可解释性。 用户看到一条推荐内容，能不能知道它为什么被选中？如果情感分析把一条批评性内容标记为"强烈负面"并降权，用户是否知道自己的信息流被情绪过滤了？这对新闻类产品尤其敏感。

领域定义的边界。 "追踪各领域最具影响力的声音"——领域怎么划分？AI 下面要不要细分出 LLM、机器人、芯片？划分粒度直接影响筛选结果。

数据来源的依赖。 实时抓取 X 内容意味着 Digg 的数据源高度依赖单一平台。X 的 API 政策变动、速率限制、封号潮都可能直接切断 Digg 的内容供给。一个稳健的聚合器应该有多源冗余。

冷启动和长尾领域。 热门领域（AI、Crypto）信号丰富，筛选容易。但冷门领域（比如古生物学、区域政策）帖子少、互动低，信号权重天然偏低，AI 筛选可能反而不如人工编辑。

实践清单

如果你也在考虑搭建类似的 AI 内容筛选管线，可以参考这个检查项：

多源采集：不要只依赖 X，至少同时接入 RSS、Reddit API、新闻源 API 作为冗余。
情感模型选型：英文用 DistilBERT/SST-2 起步，中文用对应微调模型；如果需要更细粒度（比如识别讽刺、焦虑），考虑用 LLM 做 zero-shot 分类。
权重公式要可调：把 follower 权重、互动权重、情感权重的系数做成可配置参数，上线后根据推荐效果迭代。
加时间衰减：24 小时前的帖子信号权重应该递减，否则历史热门内容会持续占位。
留人工干预入口：AI 筛选 + 人工审核是更稳妥的组合，尤其在产品早期。

Digg 的这次转型能不能活下来，取决于它能不能在"高效筛选"和"透明可信"之间找到平衡。技术上不难，难的是让用户相信算法替他们做的选择。