SFT 数据集质量评估方法调研报告

目标读者:正在用 SFT 训练 Qwen3.5-4B 并希望摆脱”训练一遍 + 跑 benchmark”这种慢循环的同学。
调研重点:探针类(数据探针 / 前向探针 / 表征探针)、influence / attribution、loss / perplexity、合成数据过滤 / reward model 评分等全部主流流派,要求大厂 / 知名学者背书或有开源代码。
检索日期:2026-06-30。所有论文均经 arXiv API 核对标题、作者、会议与开源仓库。


0. 你师兄说的”数据探针 / 前向探针”到底指什么

在数据质量评估语境里,”探针 (probe)” 是一个被多种方法共用的术语,容易混淆。本报告把它拆成三类,避免后续理解偏差:

名称 原理 是否需要训练 代表工作
Probe classifier(表征探针 / 探针分类器) 在冻结模型的中间层表征上训练一个轻量分类器,看表征里”编码了什么信息”。把它从”分析模型”迁移到”分析数据”——对每条数据打”是否含某语言学特征 / 是否被模型熟悉”的标签。 需要训练一个小探针 Conneau et al. 2018 (FAIR, ACL) 奠基;NOVA (清华, ACL 2025) 的应用
Forward probe(前向探针) 不训练任何探针,只让模型前向传播,看输出分布/多次采样的自一致性 (self-consistency) 或与参考答案的语义匹配度。模型越”熟悉”的数据,前向输出越稳定、越接近 ground truth,质量评分越高。 不需要训练,只前向推理 NOVA 的 Internal Consistency Probing (ICP);self-consistency 系列
Data probing(数据探针,宽义) 泛指直接对数据本身做轻量探测(规则、多样性、复杂度、loss、梯度相似度等),不一定要跑完整 SFT + benchmark。这是你师兄可能想表达的宽泛概念。 视方法而定 DEITA、Instruction Mining、AlpaGasus、LESS 等

关键结论:你师兄大概率指的是广义的”用轻量信号(前向 loss / 表征 / 一致性 / 梯度相似度)提前给数据打分,而不是训完再 benchmark”。下面所有方法都属于这个广义范畴,区别在于”用什么信号”。


1. 探针类方法

1.1 Probe classifier 奠基:Conneau et al. 2018

论文What you can cram into a single vector: Probing sentence embeddings for linguistic properties(ACL 2018)
作者 / 机构:Alexis Conneau, German Kruszewski, Guillaume Lample, Loïc Barrault, Marco Baroni —— Facebook AI Research (FAIR)
链接https://arxiv.org/abs/1805.01070
核心:设计 10 个 probing task(句子长度、词内容、词序、树深、顶层节点等),用简单分类器探测句子向量里编码了哪些语言学属性。
与数据质量的关系:这是”probe classifier”术语的源头。后续做数据质量评估时,可以用同样的思路在表征上训一个小分类器,把”模型是否在数据里学到某能力”转成可量化的探测分数,而不必跑完整 SFT。
代码:见论文附录与社区复现(如 https://github.com/facebookresearch/SentEval)。

1.2 NOVA:Internal Consistency Probing(前向探针的典型应用)

论文Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data FilteringACL 2025
作者 / 机构:Shuzheng Si, Haozhe Zhao, … Maosong Sun —— 清华大学(CoAI 组)
链接https://arxiv.org/abs/2502.07340
核心:提出 NOVA 框架,用两个前向探针衡量模型对指令数据的”熟悉度”,从而过滤出高质量、低幻觉的 SFT 数据。

  • Internal Consistency Probing (ICP):让模型对同一 instruction 多次自回归采样,计算多次响应之间的 tailored consistency。一致性高 = 模型对该指令”熟悉”,数据更可能促进学习而非诱发幻觉。这是典型的 forward probe:只前向传播、不训练探针。
  • Semantic Equivalence Identification (SEI):把模型生成的响应与数据集给定的 target response 做语义聚类 + 投票,判断 target 是否落在模型”已知”的语义簇内。
  • 最后再用一个 expert-aligned reward model 兜底质量。
    对你的意义:这正是”前向探针检验数据质量”的标准范例。你可以在 Qwen3.5-4B 上对候选 SFT 数据做 ICP,用一致性分数代替 benchmark 筛选数据,单条成本远低于训一遍。
    代码:论文为 ACL 2025 接收,仓库见作者主页 / https://github.com/thu-coai/NOVA(以论文官方为准)。

1.3 小结:探针类的适用边界

  • 优点:不用跑完整 SFT,前向 / 轻量探针即可对每条数据打分,可解释性强。
  • 缺点:probe classifier 需要额外标注训练;forward probe 对大模型前向算力仍有消耗;探测的是”模型当前状态下的熟悉度”,与”训练后能否提升”不完全等价。
  • 建议组合用:forward probe(ICP)做粗筛 + 一个 reward model / 复杂度指标做精排。

2. Influence-based / Data Attribution 方法

这类方法的哲学是:直接估计”这条数据对目标能力的贡献有多大”,本质上是 leave-one-out 的高效近似。比”训完跑 benchmark”快得多,因为只需要算梯度相似度,不需要重训。

2.1 Influence Functions(奠基)

论文Understanding Black-box Predictions via Influence FunctionsICML 2017
作者 / 机构:Pang Wei Koh, Percy Liang —— Stanford
链接https://arxiv.org/abs/1703.04730
核心:用鲁棒统计里的影响函数,把模型预测回溯到训练数据,找出最影响某预测的训练点。需 Hessian-vector product。
与数据质量:影响值大的数据 = 对目标任务贡献大;影响值异常的数据可能是噪声 / 离群点。
代码https://github.com/kohpangwei/influence-release

2.2 Data Shapley

论文Data Shapley: Equitable Valuation of Data for Machine Learning(ICML 2019)
作者 / 机构:Amirata Ghorbani, James Zou —— Stanford
链接https://arxiv.org/abs/1904.02868
核心:把 Shapley value 从博弈论引入数据估值,给每条训练数据一个”对预测器性能的边际贡献”分数。提供 Monte Carlo 与梯度法估计。
结论:低 Shapley 值数据 ≈ 噪声 / 离群点;高 Shapley 值数据指引该采什么样的新数据。比 leave-one-out / leverage score 更准。
代码https://github.com/amiratag/DataShapley

2.3 TRAK:可扩展的 attribution

论文TRAK: Attributing Model Behavior at Scale(ICML 2023)
作者 / 机构:Sung Min Park, Kristian Georgiev, Andrew Ilyas, Guillaume Leclerc, Aleksander Madry —— MIT Madry Lab
链接https://arxiv.org/abs/2303.14186
核心:提出 Tracing with the Randomly-projected After Kernel,只用少量训练好的模型就能逼近”训练上千个模型”的 attribution 效果。在 ImageNet、CLIP、BERT、mT5 上验证。
对你的意义:Data Shapley / influence function 原本在大模型上不可行,TRAK 把它做大了。是给 SFT 数据做 attribution 的现代基线。
代码https://github.com/MadryLab/trak(arXiv comment 字段官方给出)

2.4 LESS:专为 SFT 指令数据设计 ⭐

论文LESS: Selecting Influential Data for Targeted Instruction TuningICML 2024
作者 / 机构:Mengzhou Xia, Sadhika Malladi, Suchin Gururangan, Sanjeev Arora, Danqi Chen —— Princeton NLP
链接https://arxiv.org/abs/2402.04333
核心:Low-rank gradiEnt Similarity Search。先构造一个可复用、可迁移的”梯度数据仓”(低维梯度特征),然后选与”目标能力的 few-shot 示例”梯度相似度高的数据。

  • 适配 Adam 优化器变长指令数据(普通 influence function 不处理这些)。
  • 用 LESS 选出的 5% 数据训练,往往超过用全量数据训练。
  • 迁移性:小模型选出的数据给大模型 / 不同家族模型用也有效。
    对你的意义(重点):你 SFT Qwen3.5-4B,完全可以用 LESS 思路——选一批代表目标能力的 few-shot,对候选 SFT 数据集算梯度相似度排序,只训相似度高的子集,再跑 benchmark。一次 gradient datastore 建好可反复复用。
    代码https://github.com/princeton-nlp/LESS(arXiv comment 官方)

2.5 attribution 类小结

  • 算力排序:Influence Functions > Data Shapley > TRAK > LESS(LESS 最实用,专为指令数据设计)。
  • 都能在”训完跑 benchmark”之前给出数据排序信号,本质是数据探针的一种。

3. SFT / 指令数据选择与质量评估方法

3.1 DEITA:复杂度 + 质量 + 多样性三维打分 ⭐

论文What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction TuningICLR 2024
作者 / 机构:Wei Liu, Weihao Zeng, Keqing He, Yong Jiang, Junxian He —— HKUST NLP
链接https://arxiv.org/abs/2312.15685
核心:从 complexity、quality、diversity 三个维度度量指令数据,提出基于测量的简单选择策略。仅用 6K SFT 样本就能媲美用 10 倍数据训练的 SOTA 对齐模型;再配 DPO,7B 模型在 MT-Bench 拿 7.55、AlpacaEval 90%。
对你的意义:DEITA 是”数据探针”在 SFT 场景最系统化的实现,三维打分可直接复用到你的数据筛选 pipeline。
代码https://github.com/hkust-nlp/deita(arXiv comment 官方)

3.2 AlpaGasus:用强 LLM 给数据打分过滤

论文AlpaGasus: Training A Better Alpaca with Fewer Data
作者 / 机构:Lichang Chen, Shiyang Li, … Heng Huang, Hongxia Jin —— 多机构(UMD 等)
链接https://arxiv.org/abs/2307.08701
核心:用 ChatGPT 当裁判,给 52k Alpaca 数据逐条打分,过滤出 9k 高质量子集。训练快 5.7 倍,效果反而更好。
对你的意义:最简单的”数据探针”之一——用强模型当 reward / 评分器对数据打分,几乎零实现成本,可作为 baseline。
代码 / 主页https://lichang-chen.github.io/AlpaGasus/

3.3 Instruction Mining:自然语言指标

论文Instruction Mining: Instruction Data Selection for Tuning Large Language Models
链接https://arxiv.org/abs/2307.06290
核心:用自然语言指标(instruction length、response length、diversity 等)度量数据质量,配合 BlendSearch 找最优子集(2532 / 100000)。发现 LLM 微调里存在 double descent。
意义:纯规则 / 统计型数据探针,算力最低,适合做粗筛。

3.4 WizardLM / Evol-Instruct:从复杂度维度演化数据

论文WizardLM: Empowering large pre-trained language models to follow complex instructionsICLR 2024
作者 / 机构:Can Xu 等 —— Microsoft
链接https://arxiv.org/abs/2304.12244
核心:用 LLM 把初始指令逐步改写成更复杂指令(Evol-Instruct),本质是主动提升数据复杂度维度。可视为数据”质量增强”而非”质量评估”,但反向也可用作复杂度探针。
代码https://github.com/nlpxucan/WizardLM(arXiv comment 官方)

3.5 LIMA:质量 > 数量的标志性证据

论文LIMA: Less Is More for Alignment
作者 / 机构:Chunting Zhou, Pengfei Liu 等 —— Meta AI
链接https://arxiv.org/abs/2305.11206
核心:65B LLaMA 只用 1000 条精心人工筛选的 prompt-response 做标准 SFT(无 RLHF),就有 43% 的情况不输 GPT-4。
意义:不是方法论文,但为”数据质量决定效果”提供了最有力的动机论证,支撑所有数据筛选研究的价值前提。

3.6 phi-1 / phi-1.5:教科书级数据

论文Textbooks Are All You Need (phi-1)、Textbooks Are All You Need II (phi-1.5)
作者 / 机构:Suriya Gunasekar, Sébastien Bubeck, Ronen Eldan, Yuanzhi Li 等 —— Microsoft Research
链接https://arxiv.org/abs/2306.11644 ; https://arxiv.org/abs/2309.05463
核心:1.3B 模型用”textbook quality”数据(6B web + 1B 合成)训练,HumanEval pass@1 达 50.6%。强调数据质量密度而非规模。
意义:把”高质量数据”具体化为可操作的”教科书级”标准,是合成数据质量把控的代表案例。


4. Loss / Perplexity / Reference-based 评估方法

这是”数据探针”里算力-效果折中最常用的一档:用一个参考模型算候选数据的 loss / perplexity,作为质量代理。

4.1 Marion et al.:Perplexity 做数据剪枝 ⭐

论文When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale
作者 / 机构:Max Marion, Ahmet Üstün, Luiza Pozzobon, Alex Wang, Marzieh Fadaee, Sara Hooker —— Cohere(Sara Hooker 为知名学者)
链接https://arxiv.org/abs/2309.04564
核心:系统对比 perplexity、Error L2-Norm、memorization 三种数据质量估计器,用于预训练数据剪枝。结论意外:简单的 perplexity 反而优于更贵的方法;只训 30% 数据即可超过不剪枝基线。
对你的意义:虽然这是预训练场景,但 perplexity-based 评估的结论对 SFT 同样有参考价值——先用一个强参考模型算候选 SFT 数据的 loss,低 loss(模型已熟悉)和高 loss(模型完全不会)两端可分别处理,中间段往往是”最有学习价值”的数据。这是最便宜的数据探针之一。

4.2 Scaling Data-Constrained LMs

论文Scaling Data-Constrained Language Models(NeurIPS 2023)
作者 / 机构:Niklas Muennighoff, Alexander M. Rush, Boaz Barak, Teven Le Scao, Thomas Wolf, Colin Raffel 等 —— HuggingFace + Harvard(Boaz Barak 为知名理论学者)
链接https://arxiv.org/abs/2305.16264
核心:在数据受限场景下研究重复训练 epoch 与 compute 的关系,提出考虑重复数据价值递减的 scaling law。
意义:当你 SFT 数据不够、要重复使用时,这套 scaling law 给”重复多少轮 / 数据够不够”提供了量化判据,避免无脑重复。
代码https://github.com/huggingface/datablations(arXiv comment 官方)

4.3 RefinedWeb / Falcon:规则过滤 + 去重

论文The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only
作者 / 机构:Guilherme Penedo 等 —— TII(Falcon)
链接https://arxiv.org/abs/2306.01116
核心:仅用严格过滤 + 去重的 web 数据(无 curated corpus),Falcon 反超用 The Pile 训练的模型。
意义:证明”工程化规则过滤 + 去重”这种最朴素的数据探针在大规模下依然极有效,是任何 pipeline 的必备前置步骤。

4.4 DataComp-LM (DCLM):model-based filtering 是关键 ⭐

论文DataComp-LM: In search of the next generation of training sets for language models(NeurIPS 2024 Datasets & Benchmarks)
作者 / 机构:Jeffrey Li, Alex Fang, … Pang Wei Koh, Ludwig Schmidt, Vaishaal Shankar 等 —— 多机构(UW、Stanford、Salesforce、HuggingFace 等,Pang Wei Koh / Ludwig Schmidt 均为知名学者)
链接https://arxiv.org/abs/2406.11794
核心:提供 240T token 语料 + 标准化评测的 testbed,系统对比去重、过滤、混合等 curation 策略。结论:model-based filtering(用一个打分模型筛数据)是组装高质量训练集的关键。DCLM-Baseline 训出的 7B 模型 MMLU 5-shot 64%,比 MAP-Neo 高 6.6 个点,算力少 40%。
对你的意义:model-based filtering 与 AlpaGasus 的”强模型打分”、NOVA 的”reward model”思路一脉相承——这是目前业界公认最有效的数据探针范式。
主页 / 代码https://www.datacomp.ai/dclm/


5. 合成数据过滤与 Reward Model 评分

5.1 范式总览

合成 SFT 数据(GPT-4 蒸馏、Evol-Instruct 等)多了”过滤”这一步:生成大量 → 用评分器筛高质量子集。评分器主要三类:

  1. 强 LLM 当裁判(AlpaGasus、DCLM 的 model-based filtering)
  2. Reward model 打分(NOVA 的 expert-aligned RM、DEITA 的 quality scorer)
  3. 自一致性 / 前向探针(NOVA 的 ICP)

5.2 代表方法对应表

方法 评分器类型 是否开源 出处
AlpaGasus 强 LLM (ChatGPT) 打分 §3.2
DEITA 训练好的 quality / complexity scorer §3.1
NOVA 前向探针 ICP + reward model §1.2
DCLM model-based filter(小分类器 / perplexity) §4.4
LESS 梯度相似度 §2.4

6. 方法全景对比

流派 代表方法 信号来源 单条算力 需训练? 开源 最适合你的场景
前向探针 NOVA ICP 模型多次采样一致性 ★★★ 粗筛
表征探针 Conneau probing / probe classifier 中间层表征 需训小探针 复杂度可控时用
Influence LESS 梯度相似度 中(建 gradient datastore) ★★★ 针对目标能力精选
Influence (大模型) TRAK / Data Shapley 梯度 / Shapley 数据规模大时
Loss / PPL Marion perplexity 参考模型 loss ★★★ 最便宜粗筛
维度打分 DEITA 复杂度+质量+多样性 需训 scorer ★★★ 系统化 pipeline
强模型裁判 AlpaGasus / DCLM 强 LLM 评分 中(API 费) 有 API 预算时
规则 + 去重 RefinedWeb 启发式规则 极低 必备前置步骤
数据增强 Evol-Instruct LLM 演化复杂度 主动提质量

7. 针对你的场景(Qwen3.5-4B SFT)的可落地建议

你现在的循环是:选数据 → SFT Qwen3.5-4B → 跑 benchmark → 看分数。慢在每次都要完整 SFT。建议改成三段式,把”训完跑 benchmark”从主循环里拿出来:

第 1 段(最便宜,前置必做)—— 规则 + 去重 + PPL 粗筛

  • 用 RefinedWeb 式规则过滤 + MinHash 去重(§4.3)。
  • 用一个强参考模型(如 Qwen2.5-7B / Qwen3-8B,或直接用你要训的 Qwen3.5-4B base)算候选数据的 perplexity(§4.1 Marion)。先剔除 PPL 异常高(模型完全不会、可能噪声)和异常低(重复 / 过简单)两端。
  • 这一步几乎零额外训练成本,能砍掉大部分劣质数据。

第 2 段(中成本,质量精排)—— 前向探针 + 维度打分

  • 对粗筛后的数据跑 NOVA 的 Internal Consistency Probing(§1.2):让 Qwen3.5-4B 对每条 instruction 多次采样,算一致性。一致性适中(模型”有点会但不完全会”)的数据最有学习价值。
  • 叠加 DEITA 的复杂度 / 质量 / 多样性打分(§3.1)做精排。
  • 这一步只需前向推理 + 小分类器,不训 SFT。

第 3 段(可选,针对性精选)—— LESS 梯度相似度

  • 如果你 SFT 是为了提升某个具体能力(如数学推理、代码),用 LESS(§2.4):准备该能力的 few-shot 示例,建一次 gradient datastore,对候选数据算梯度相似度,取 top-5%。
  • LESS 论文证明小模型建的 gradient datastore 可迁移给大模型,所以哪怕先用更小模型建仓也有效。

第 4 段(保留,最终验证)—— SFT + benchmark

  • 只在前三段筛出的子集上做 SFT + benchmark,作为最终验证。原本可能要跑十几轮,现在只需 1–3 轮。
  • 把 benchmark 结果反过来校准前三段的打分阈值(哪些探针分数区间真正对应收益),形成闭环。

预期收益:把”数据质量评估”从”训练级”降到”推理级 + 轻量训练级”,单轮评估时间从小时级降到分钟级。


8. 关键论文清单(按优先级)

  1. LESS — Princeton NLP, ICML 2024 — arXiv:2402.04333github.com/princeton-nlp/LESS
  2. DEITA — HKUST NLP, ICLR 2024 — arXiv:2312.15685github.com/hkust-nlp/deita
  3. NOVA (ICP) — 清华, ACL 2025 — arXiv:2502.07340
  4. Marion perplexity pruning — Cohere (Sara Hooker) — arXiv:2309.04564
  5. DataComp-LM (DCLM) — UW/Stanford/Salesforce 等 (Pang Wei Koh, Ludwig Schmidt) — arXiv:2406.11794datacomp.ai/dclm
  6. AlpaGasusarXiv:2307.08701lichang-chen.github.io/AlpaGasus
  7. TRAK — MIT Madry Lab, ICML 2023 — arXiv:2303.14186github.com/MadryLab/trak
  8. Influence Functions — Stanford (Koh & Liang), ICML 2017 — arXiv:1703.04730github.com/kohpangwei/influence-release
  9. Data Shapley — Stanford (Ghorbani & Zou), ICML 2019 — arXiv:1904.02868github.com/amiratag/DataShapley
  10. Conneau probing — FAIR, ACL 2018 — arXiv:1805.01070
  11. Scaling Data-Constrained — HuggingFace + Harvard (Boaz Barak) — arXiv:2305.16264github.com/huggingface/datablations
  12. WizardLM / Evol-Instruct — Microsoft, ICLR 2024 — arXiv:2304.12244github.com/nlpxucan/WizardLM
  13. LIMA — Meta AI — arXiv:2305.11206
  14. phi-1 / phi-1.5 — Microsoft Research — arXiv:2306.11644 / arXiv:2309.05463
  15. RefinedWeb / Falcon — TII — arXiv:2306.01116
  16. Instruction MiningarXiv:2307.06290

9. 几点提醒(避免踩坑)

  • “前向探针”≠”probe classifier”:前者只前向传播看输出一致性,后者要训小分类器,别混用术语。
  • PPL 不是越高 / 越低越好:Marion 论文显示 PPL 作为排序信号有效,但 SFT 场景下”最有价值”的往往是 PPL 中段(模型”半会”)的数据,两端都要小心。
  • LESS 的 gradient datastore 是一次性投资:建仓贵,但建完可对不同目标能力反复查询,长期摊销成本低。
  • 强模型裁判有偏差:AlpaGasus / DCLM 的 model-based filtering 效果好,但裁判模型有自身偏好,最好与一个非 LLM 信号(PPL / 一致性)交叉验证。
  • benchmark 仍是 ground truth:所有探针都是 benchmark 的代理,建议保留少量 benchmark 运行用于校准探针阈值,不要完全砍掉。

报告完。所有 arXiv 编号、作者、会议、开源仓库均经 arXiv API 与论文 comment 字段核对。如需对某篇深入展开(复现步骤、代码跑通),可再单独调研。