SFT数据集质量评估方法调研报告
SFT 数据集质量评估方法调研报告
目标读者:正在用 SFT 训练 Qwen3.5-4B 并希望摆脱”训练一遍 + 跑 benchmark”这种慢循环的同学。
调研重点:探针类(数据探针 / 前向探针 / 表征探针)、influence / attribution、loss / perplexity、合成数据过滤 / reward model 评分等全部主流流派,要求大厂 / 知名学者背书或有开源代码。
检索日期:2026-06-30。所有论文均经 arXiv API 核对标题、作者、会议与开源仓库。
0. 你师兄说的”数据探针 / 前向探针”到底指什么
在数据质量评估语境里,”探针 (probe)” 是一个被多种方法共用的术语,容易混淆。本报告把它拆成三类,避免后续理解偏差:
| 名称 | 原理 | 是否需要训练 | 代表工作 |
|---|---|---|---|
| Probe classifier(表征探针 / 探针分类器) | 在冻结模型的中间层表征上训练一个轻量分类器,看表征里”编码了什么信息”。把它从”分析模型”迁移到”分析数据”——对每条数据打”是否含某语言学特征 / 是否被模型熟悉”的标签。 | 需要训练一个小探针 | Conneau et al. 2018 (FAIR, ACL) 奠基;NOVA (清华, ACL 2025) 的应用 |
| Forward probe(前向探针) | 不训练任何探针,只让模型前向传播,看输出分布/多次采样的自一致性 (self-consistency) 或与参考答案的语义匹配度。模型越”熟悉”的数据,前向输出越稳定、越接近 ground truth,质量评分越高。 | 不需要训练,只前向推理 | NOVA 的 Internal Consistency Probing (ICP);self-consistency 系列 |
| Data probing(数据探针,宽义) | 泛指直接对数据本身做轻量探测(规则、多样性、复杂度、loss、梯度相似度等),不一定要跑完整 SFT + benchmark。这是你师兄可能想表达的宽泛概念。 | 视方法而定 | DEITA、Instruction Mining、AlpaGasus、LESS 等 |
关键结论:你师兄大概率指的是广义的”用轻量信号(前向 loss / 表征 / 一致性 / 梯度相似度)提前给数据打分,而不是训完再 benchmark”。下面所有方法都属于这个广义范畴,区别在于”用什么信号”。
1. 探针类方法
1.1 Probe classifier 奠基:Conneau et al. 2018
论文:What you can cram into a single vector: Probing sentence embeddings for linguistic properties(ACL 2018)
作者 / 机构:Alexis Conneau, German Kruszewski, Guillaume Lample, Loïc Barrault, Marco Baroni —— Facebook AI Research (FAIR)
链接:https://arxiv.org/abs/1805.01070
核心:设计 10 个 probing task(句子长度、词内容、词序、树深、顶层节点等),用简单分类器探测句子向量里编码了哪些语言学属性。
与数据质量的关系:这是”probe classifier”术语的源头。后续做数据质量评估时,可以用同样的思路在表征上训一个小分类器,把”模型是否在数据里学到某能力”转成可量化的探测分数,而不必跑完整 SFT。
代码:见论文附录与社区复现(如 https://github.com/facebookresearch/SentEval)。
1.2 NOVA:Internal Consistency Probing(前向探针的典型应用)
论文:Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering(ACL 2025)
作者 / 机构:Shuzheng Si, Haozhe Zhao, … Maosong Sun —— 清华大学(CoAI 组)
链接:https://arxiv.org/abs/2502.07340
核心:提出 NOVA 框架,用两个前向探针衡量模型对指令数据的”熟悉度”,从而过滤出高质量、低幻觉的 SFT 数据。
- Internal Consistency Probing (ICP):让模型对同一 instruction 多次自回归采样,计算多次响应之间的 tailored consistency。一致性高 = 模型对该指令”熟悉”,数据更可能促进学习而非诱发幻觉。这是典型的 forward probe:只前向传播、不训练探针。
- Semantic Equivalence Identification (SEI):把模型生成的响应与数据集给定的 target response 做语义聚类 + 投票,判断 target 是否落在模型”已知”的语义簇内。
- 最后再用一个 expert-aligned reward model 兜底质量。
对你的意义:这正是”前向探针检验数据质量”的标准范例。你可以在 Qwen3.5-4B 上对候选 SFT 数据做 ICP,用一致性分数代替 benchmark 筛选数据,单条成本远低于训一遍。
代码:论文为 ACL 2025 接收,仓库见作者主页 /https://github.com/thu-coai/NOVA(以论文官方为准)。
1.3 小结:探针类的适用边界
- 优点:不用跑完整 SFT,前向 / 轻量探针即可对每条数据打分,可解释性强。
- 缺点:probe classifier 需要额外标注训练;forward probe 对大模型前向算力仍有消耗;探测的是”模型当前状态下的熟悉度”,与”训练后能否提升”不完全等价。
- 建议组合用:forward probe(ICP)做粗筛 + 一个 reward model / 复杂度指标做精排。
2. Influence-based / Data Attribution 方法
这类方法的哲学是:直接估计”这条数据对目标能力的贡献有多大”,本质上是 leave-one-out 的高效近似。比”训完跑 benchmark”快得多,因为只需要算梯度相似度,不需要重训。
2.1 Influence Functions(奠基)
论文:Understanding Black-box Predictions via Influence Functions(ICML 2017)
作者 / 机构:Pang Wei Koh, Percy Liang —— Stanford
链接:https://arxiv.org/abs/1703.04730
核心:用鲁棒统计里的影响函数,把模型预测回溯到训练数据,找出最影响某预测的训练点。需 Hessian-vector product。
与数据质量:影响值大的数据 = 对目标任务贡献大;影响值异常的数据可能是噪声 / 离群点。
代码:https://github.com/kohpangwei/influence-release
2.2 Data Shapley
论文:Data Shapley: Equitable Valuation of Data for Machine Learning(ICML 2019)
作者 / 机构:Amirata Ghorbani, James Zou —— Stanford
链接:https://arxiv.org/abs/1904.02868
核心:把 Shapley value 从博弈论引入数据估值,给每条训练数据一个”对预测器性能的边际贡献”分数。提供 Monte Carlo 与梯度法估计。
结论:低 Shapley 值数据 ≈ 噪声 / 离群点;高 Shapley 值数据指引该采什么样的新数据。比 leave-one-out / leverage score 更准。
代码:https://github.com/amiratag/DataShapley
2.3 TRAK:可扩展的 attribution
论文:TRAK: Attributing Model Behavior at Scale(ICML 2023)
作者 / 机构:Sung Min Park, Kristian Georgiev, Andrew Ilyas, Guillaume Leclerc, Aleksander Madry —— MIT Madry Lab
链接:https://arxiv.org/abs/2303.14186
核心:提出 Tracing with the Randomly-projected After Kernel,只用少量训练好的模型就能逼近”训练上千个模型”的 attribution 效果。在 ImageNet、CLIP、BERT、mT5 上验证。
对你的意义:Data Shapley / influence function 原本在大模型上不可行,TRAK 把它做大了。是给 SFT 数据做 attribution 的现代基线。
代码:https://github.com/MadryLab/trak(arXiv comment 字段官方给出)
2.4 LESS:专为 SFT 指令数据设计 ⭐
论文:LESS: Selecting Influential Data for Targeted Instruction Tuning(ICML 2024)
作者 / 机构:Mengzhou Xia, Sadhika Malladi, Suchin Gururangan, Sanjeev Arora, Danqi Chen —— Princeton NLP
链接:https://arxiv.org/abs/2402.04333
核心:Low-rank gradiEnt Similarity Search。先构造一个可复用、可迁移的”梯度数据仓”(低维梯度特征),然后选与”目标能力的 few-shot 示例”梯度相似度高的数据。
- 适配 Adam 优化器和变长指令数据(普通 influence function 不处理这些)。
- 用 LESS 选出的 5% 数据训练,往往超过用全量数据训练。
- 迁移性:小模型选出的数据给大模型 / 不同家族模型用也有效。
对你的意义(重点):你 SFT Qwen3.5-4B,完全可以用 LESS 思路——选一批代表目标能力的 few-shot,对候选 SFT 数据集算梯度相似度排序,只训相似度高的子集,再跑 benchmark。一次 gradient datastore 建好可反复复用。
代码:https://github.com/princeton-nlp/LESS(arXiv comment 官方)
2.5 attribution 类小结
- 算力排序:Influence Functions > Data Shapley > TRAK > LESS(LESS 最实用,专为指令数据设计)。
- 都能在”训完跑 benchmark”之前给出数据排序信号,本质是数据探针的一种。
3. SFT / 指令数据选择与质量评估方法
3.1 DEITA:复杂度 + 质量 + 多样性三维打分 ⭐
论文:What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning(ICLR 2024)
作者 / 机构:Wei Liu, Weihao Zeng, Keqing He, Yong Jiang, Junxian He —— HKUST NLP
链接:https://arxiv.org/abs/2312.15685
核心:从 complexity、quality、diversity 三个维度度量指令数据,提出基于测量的简单选择策略。仅用 6K SFT 样本就能媲美用 10 倍数据训练的 SOTA 对齐模型;再配 DPO,7B 模型在 MT-Bench 拿 7.55、AlpacaEval 90%。
对你的意义:DEITA 是”数据探针”在 SFT 场景最系统化的实现,三维打分可直接复用到你的数据筛选 pipeline。
代码:https://github.com/hkust-nlp/deita(arXiv comment 官方)
3.2 AlpaGasus:用强 LLM 给数据打分过滤
论文:AlpaGasus: Training A Better Alpaca with Fewer Data
作者 / 机构:Lichang Chen, Shiyang Li, … Heng Huang, Hongxia Jin —— 多机构(UMD 等)
链接:https://arxiv.org/abs/2307.08701
核心:用 ChatGPT 当裁判,给 52k Alpaca 数据逐条打分,过滤出 9k 高质量子集。训练快 5.7 倍,效果反而更好。
对你的意义:最简单的”数据探针”之一——用强模型当 reward / 评分器对数据打分,几乎零实现成本,可作为 baseline。
代码 / 主页:https://lichang-chen.github.io/AlpaGasus/
3.3 Instruction Mining:自然语言指标
论文:Instruction Mining: Instruction Data Selection for Tuning Large Language Models
链接:https://arxiv.org/abs/2307.06290
核心:用自然语言指标(instruction length、response length、diversity 等)度量数据质量,配合 BlendSearch 找最优子集(2532 / 100000)。发现 LLM 微调里存在 double descent。
意义:纯规则 / 统计型数据探针,算力最低,适合做粗筛。
3.4 WizardLM / Evol-Instruct:从复杂度维度演化数据
论文:WizardLM: Empowering large pre-trained language models to follow complex instructions(ICLR 2024)
作者 / 机构:Can Xu 等 —— Microsoft
链接:https://arxiv.org/abs/2304.12244
核心:用 LLM 把初始指令逐步改写成更复杂指令(Evol-Instruct),本质是主动提升数据复杂度维度。可视为数据”质量增强”而非”质量评估”,但反向也可用作复杂度探针。
代码:https://github.com/nlpxucan/WizardLM(arXiv comment 官方)
3.5 LIMA:质量 > 数量的标志性证据
论文:LIMA: Less Is More for Alignment
作者 / 机构:Chunting Zhou, Pengfei Liu 等 —— Meta AI
链接:https://arxiv.org/abs/2305.11206
核心:65B LLaMA 只用 1000 条精心人工筛选的 prompt-response 做标准 SFT(无 RLHF),就有 43% 的情况不输 GPT-4。
意义:不是方法论文,但为”数据质量决定效果”提供了最有力的动机论证,支撑所有数据筛选研究的价值前提。
3.6 phi-1 / phi-1.5:教科书级数据
论文:Textbooks Are All You Need (phi-1)、Textbooks Are All You Need II (phi-1.5)
作者 / 机构:Suriya Gunasekar, Sébastien Bubeck, Ronen Eldan, Yuanzhi Li 等 —— Microsoft Research
链接:https://arxiv.org/abs/2306.11644 ; https://arxiv.org/abs/2309.05463
核心:1.3B 模型用”textbook quality”数据(6B web + 1B 合成)训练,HumanEval pass@1 达 50.6%。强调数据质量密度而非规模。
意义:把”高质量数据”具体化为可操作的”教科书级”标准,是合成数据质量把控的代表案例。
4. Loss / Perplexity / Reference-based 评估方法
这是”数据探针”里算力-效果折中最常用的一档:用一个参考模型算候选数据的 loss / perplexity,作为质量代理。
4.1 Marion et al.:Perplexity 做数据剪枝 ⭐
论文:When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale
作者 / 机构:Max Marion, Ahmet Üstün, Luiza Pozzobon, Alex Wang, Marzieh Fadaee, Sara Hooker —— Cohere(Sara Hooker 为知名学者)
链接:https://arxiv.org/abs/2309.04564
核心:系统对比 perplexity、Error L2-Norm、memorization 三种数据质量估计器,用于预训练数据剪枝。结论意外:简单的 perplexity 反而优于更贵的方法;只训 30% 数据即可超过不剪枝基线。
对你的意义:虽然这是预训练场景,但 perplexity-based 评估的结论对 SFT 同样有参考价值——先用一个强参考模型算候选 SFT 数据的 loss,低 loss(模型已熟悉)和高 loss(模型完全不会)两端可分别处理,中间段往往是”最有学习价值”的数据。这是最便宜的数据探针之一。
4.2 Scaling Data-Constrained LMs
论文:Scaling Data-Constrained Language Models(NeurIPS 2023)
作者 / 机构:Niklas Muennighoff, Alexander M. Rush, Boaz Barak, Teven Le Scao, Thomas Wolf, Colin Raffel 等 —— HuggingFace + Harvard(Boaz Barak 为知名理论学者)
链接:https://arxiv.org/abs/2305.16264
核心:在数据受限场景下研究重复训练 epoch 与 compute 的关系,提出考虑重复数据价值递减的 scaling law。
意义:当你 SFT 数据不够、要重复使用时,这套 scaling law 给”重复多少轮 / 数据够不够”提供了量化判据,避免无脑重复。
代码:https://github.com/huggingface/datablations(arXiv comment 官方)
4.3 RefinedWeb / Falcon:规则过滤 + 去重
论文:The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only
作者 / 机构:Guilherme Penedo 等 —— TII(Falcon)
链接:https://arxiv.org/abs/2306.01116
核心:仅用严格过滤 + 去重的 web 数据(无 curated corpus),Falcon 反超用 The Pile 训练的模型。
意义:证明”工程化规则过滤 + 去重”这种最朴素的数据探针在大规模下依然极有效,是任何 pipeline 的必备前置步骤。
4.4 DataComp-LM (DCLM):model-based filtering 是关键 ⭐
论文:DataComp-LM: In search of the next generation of training sets for language models(NeurIPS 2024 Datasets & Benchmarks)
作者 / 机构:Jeffrey Li, Alex Fang, … Pang Wei Koh, Ludwig Schmidt, Vaishaal Shankar 等 —— 多机构(UW、Stanford、Salesforce、HuggingFace 等,Pang Wei Koh / Ludwig Schmidt 均为知名学者)
链接:https://arxiv.org/abs/2406.11794
核心:提供 240T token 语料 + 标准化评测的 testbed,系统对比去重、过滤、混合等 curation 策略。结论:model-based filtering(用一个打分模型筛数据)是组装高质量训练集的关键。DCLM-Baseline 训出的 7B 模型 MMLU 5-shot 64%,比 MAP-Neo 高 6.6 个点,算力少 40%。
对你的意义:model-based filtering 与 AlpaGasus 的”强模型打分”、NOVA 的”reward model”思路一脉相承——这是目前业界公认最有效的数据探针范式。
主页 / 代码:https://www.datacomp.ai/dclm/
5. 合成数据过滤与 Reward Model 评分
5.1 范式总览
合成 SFT 数据(GPT-4 蒸馏、Evol-Instruct 等)多了”过滤”这一步:生成大量 → 用评分器筛高质量子集。评分器主要三类:
- 强 LLM 当裁判(AlpaGasus、DCLM 的 model-based filtering)
- Reward model 打分(NOVA 的 expert-aligned RM、DEITA 的 quality scorer)
- 自一致性 / 前向探针(NOVA 的 ICP)
5.2 代表方法对应表
| 方法 | 评分器类型 | 是否开源 | 出处 |
|---|---|---|---|
| AlpaGasus | 强 LLM (ChatGPT) 打分 | 是 | §3.2 |
| DEITA | 训练好的 quality / complexity scorer | 是 | §3.1 |
| NOVA | 前向探针 ICP + reward model | 是 | §1.2 |
| DCLM | model-based filter(小分类器 / perplexity) | 是 | §4.4 |
| LESS | 梯度相似度 | 是 | §2.4 |
6. 方法全景对比
| 流派 | 代表方法 | 信号来源 | 单条算力 | 需训练? | 开源 | 最适合你的场景 |
|---|---|---|---|---|---|---|
| 前向探针 | NOVA ICP | 模型多次采样一致性 | 中 | 否 | 是 | ★★★ 粗筛 |
| 表征探针 | Conneau probing / probe classifier | 中间层表征 | 低 | 需训小探针 | 是 | 复杂度可控时用 |
| Influence | LESS | 梯度相似度 | 中(建 gradient datastore) | 否 | 是 | ★★★ 针对目标能力精选 |
| Influence (大模型) | TRAK / Data Shapley | 梯度 / Shapley | 高 | 否 | 是 | 数据规模大时 |
| Loss / PPL | Marion perplexity | 参考模型 loss | 低 | 否 | — | ★★★ 最便宜粗筛 |
| 维度打分 | DEITA | 复杂度+质量+多样性 | 低 | 需训 scorer | 是 | ★★★ 系统化 pipeline |
| 强模型裁判 | AlpaGasus / DCLM | 强 LLM 评分 | 中(API 费) | 否 | 是 | 有 API 预算时 |
| 规则 + 去重 | RefinedWeb | 启发式规则 | 极低 | 否 | 是 | 必备前置步骤 |
| 数据增强 | Evol-Instruct | LLM 演化复杂度 | 中 | 否 | 是 | 主动提质量 |
7. 针对你的场景(Qwen3.5-4B SFT)的可落地建议
你现在的循环是:选数据 → SFT Qwen3.5-4B → 跑 benchmark → 看分数。慢在每次都要完整 SFT。建议改成三段式,把”训完跑 benchmark”从主循环里拿出来:
第 1 段(最便宜,前置必做)—— 规则 + 去重 + PPL 粗筛
- 用 RefinedWeb 式规则过滤 + MinHash 去重(§4.3)。
- 用一个强参考模型(如 Qwen2.5-7B / Qwen3-8B,或直接用你要训的 Qwen3.5-4B base)算候选数据的 perplexity(§4.1 Marion)。先剔除 PPL 异常高(模型完全不会、可能噪声)和异常低(重复 / 过简单)两端。
- 这一步几乎零额外训练成本,能砍掉大部分劣质数据。
第 2 段(中成本,质量精排)—— 前向探针 + 维度打分
- 对粗筛后的数据跑 NOVA 的 Internal Consistency Probing(§1.2):让 Qwen3.5-4B 对每条 instruction 多次采样,算一致性。一致性适中(模型”有点会但不完全会”)的数据最有学习价值。
- 叠加 DEITA 的复杂度 / 质量 / 多样性打分(§3.1)做精排。
- 这一步只需前向推理 + 小分类器,不训 SFT。
第 3 段(可选,针对性精选)—— LESS 梯度相似度
- 如果你 SFT 是为了提升某个具体能力(如数学推理、代码),用 LESS(§2.4):准备该能力的 few-shot 示例,建一次 gradient datastore,对候选数据算梯度相似度,取 top-5%。
- LESS 论文证明小模型建的 gradient datastore 可迁移给大模型,所以哪怕先用更小模型建仓也有效。
第 4 段(保留,最终验证)—— SFT + benchmark
- 只在前三段筛出的子集上做 SFT + benchmark,作为最终验证。原本可能要跑十几轮,现在只需 1–3 轮。
- 把 benchmark 结果反过来校准前三段的打分阈值(哪些探针分数区间真正对应收益),形成闭环。
预期收益:把”数据质量评估”从”训练级”降到”推理级 + 轻量训练级”,单轮评估时间从小时级降到分钟级。
8. 关键论文清单(按优先级)
- LESS — Princeton NLP, ICML 2024 —
arXiv:2402.04333—github.com/princeton-nlp/LESS - DEITA — HKUST NLP, ICLR 2024 —
arXiv:2312.15685—github.com/hkust-nlp/deita - NOVA (ICP) — 清华, ACL 2025 —
arXiv:2502.07340 - Marion perplexity pruning — Cohere (Sara Hooker) —
arXiv:2309.04564 - DataComp-LM (DCLM) — UW/Stanford/Salesforce 等 (Pang Wei Koh, Ludwig Schmidt) —
arXiv:2406.11794—datacomp.ai/dclm - AlpaGasus —
arXiv:2307.08701—lichang-chen.github.io/AlpaGasus - TRAK — MIT Madry Lab, ICML 2023 —
arXiv:2303.14186—github.com/MadryLab/trak - Influence Functions — Stanford (Koh & Liang), ICML 2017 —
arXiv:1703.04730—github.com/kohpangwei/influence-release - Data Shapley — Stanford (Ghorbani & Zou), ICML 2019 —
arXiv:1904.02868—github.com/amiratag/DataShapley - Conneau probing — FAIR, ACL 2018 —
arXiv:1805.01070 - Scaling Data-Constrained — HuggingFace + Harvard (Boaz Barak) —
arXiv:2305.16264—github.com/huggingface/datablations - WizardLM / Evol-Instruct — Microsoft, ICLR 2024 —
arXiv:2304.12244—github.com/nlpxucan/WizardLM - LIMA — Meta AI —
arXiv:2305.11206 - phi-1 / phi-1.5 — Microsoft Research —
arXiv:2306.11644/arXiv:2309.05463 - RefinedWeb / Falcon — TII —
arXiv:2306.01116 - Instruction Mining —
arXiv:2307.06290
9. 几点提醒(避免踩坑)
- “前向探针”≠”probe classifier”:前者只前向传播看输出一致性,后者要训小分类器,别混用术语。
- PPL 不是越高 / 越低越好:Marion 论文显示 PPL 作为排序信号有效,但 SFT 场景下”最有价值”的往往是 PPL 中段(模型”半会”)的数据,两端都要小心。
- LESS 的 gradient datastore 是一次性投资:建仓贵,但建完可对不同目标能力反复查询,长期摊销成本低。
- 强模型裁判有偏差:AlpaGasus / DCLM 的 model-based filtering 效果好,但裁判模型有自身偏好,最好与一个非 LLM 信号(PPL / 一致性)交叉验证。
- benchmark 仍是 ground truth:所有探针都是 benchmark 的代理,建议保留少量 benchmark 运行用于校准探针阈值,不要完全砍掉。
报告完。所有 arXiv 编号、作者、会议、开源仓库均经 arXiv API 与论文 comment 字段核对。如需对某篇深入展开(复现步骤、代码跑通),可再单独调研。
