标签

数据

用 LLM Eval 做实验:漏斗而非一刀切

来源:engineering.atspotify.com 31
Spotify 工程团队最近分享了一个关于 LLM Eval 实验设计的核心观点:把 LLM 评估当成漏斗,而不是一刀切的闸门。 这句话看似简单,但背后指向的是很多团队在用 LLM 做自动评估时踩的坑——把 eval 当成 binary pass/fail 的裁判,结果要么放过了坏输出,要么误杀了好输出。 很多团队拿到 LLM eval 的第一反应是:...