SFT 数据集质量评估方法调研报告

目标读者：正在用 SFT 训练 Qwen3.5-4B 并希望摆脱”训练一遍 + 跑 benchmark”这种慢循环的同学。
调研重点：探针类（数据探针 / 前向探针 / 表征探针）、influence / attribution、loss / perplexity、合成数据过滤 / reward model 评分等全部主流流派，要求大厂 / 知名学者背书或有开源代码。
检索日期：2026-06-30。所有论文均经 arXiv API 核对标题、作者、会议与开源仓库。

0. 你师兄说的”数据探针 / 前向探针”到底指什么

在数据质量评估语境里，”探针 (probe)” 是一个被多种方法共用的术语，容易混淆。本报告把它拆成三类，避免后续理解偏差：

名称	原理	是否需要训练	代表工作
Probe classifier（表征探针 / 探针分类器）	在冻结模型的中间层表征上训练一个轻量分类器，看表征里”编码了什么信息”。把它从”分析模型”迁移到”分析数据”——对每条数据打”是否含某语言学特征 / 是否被模型熟悉”的标签。	需要训练一个小探针	Conneau et al. 2018 (FAIR, ACL) 奠基；NOVA (清华, ACL 2025) 的应用
Forward probe（前向探针）	不训练任何探针，只让模型前向传播，看输出分布/多次采样的自一致性 (self-consistency) 或与参考答案的语义匹配度。模型越”熟悉”的数据，前向输出越稳定、越接近 ground truth，质量评分越高。	不需要训练，只前向推理	NOVA 的 Internal Consistency Probing (ICP)；self-consistency 系列
Data probing（数据探针，宽义）	泛指直接对数据本身做轻量探测（规则、多样性、复杂度、loss、梯度相似度等），不一定要跑完整 SFT + benchmark。这是你师兄可能想表达的宽泛概念。	视方法而定	DEITA、Instruction Mining、AlpaGasus、LESS 等

关键结论：你师兄大概率指的是广义的”用轻量信号（前向 loss / 表征 / 一致性 / 梯度相似度）提前给数据打分，而不是训完再 benchmark”。下面所有方法都属于这个广义范畴，区别在于”用什么信号”。

1. 探针类方法

1.1 Probe classifier 奠基：Conneau et al. 2018

论文：What you can cram into a single vector: Probing sentence embeddings for linguistic properties（ACL 2018）
作者 / 机构：Alexis Conneau, German Kruszewski, Guillaume Lample, Loïc Barrault, Marco Baroni —— Facebook AI Research (FAIR)
链接：https://arxiv.org/abs/1805.01070
核心：设计 10 个 probing task（句子长度、词内容、词序、树深、顶层节点等），用简单分类器探测句子向量里编码了哪些语言学属性。
与数据质量的关系：这是”probe classifier”术语的源头。后续做数据质量评估时，可以用同样的思路在表征上训一个小分类器，把”模型是否在数据里学到某能力”转成可量化的探测分数，而不必跑完整 SFT。
代码：见论文附录与社区复现（如 https://github.com/facebookresearch/SentEval）。

1.2 NOVA：Internal Consistency Probing（前向探针的典型应用）

论文：Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering（ACL 2025）
作者 / 机构：Shuzheng Si, Haozhe Zhao, … Maosong Sun —— 清华大学（CoAI 组）
链接：https://arxiv.org/abs/2502.07340
核心：提出 NOVA 框架，用两个前向探针衡量模型对指令数据的”熟悉度”，从而过滤出高质量、低幻觉的 SFT 数据。

Internal Consistency Probing (ICP)：让模型对同一 instruction 多次自回归采样，计算多次响应之间的 tailored consistency。一致性高 = 模型对该指令”熟悉”，数据更可能促进学习而非诱发幻觉。这是典型的 forward probe：只前向传播、不训练探针。
Semantic Equivalence Identification (SEI)：把模型生成的响应与数据集给定的 target response 做语义聚类 + 投票，判断 target 是否落在模型”已知”的语义簇内。
最后再用一个 expert-aligned reward model 兜底质量。
对你的意义：这正是”前向探针检验数据质量”的标准范例。你可以在 Qwen3.5-4B 上对候选 SFT 数据做 ICP，用一致性分数代替 benchmark 筛选数据，单条成本远低于训一遍。
代码：论文为 ACL 2025 接收，仓库见作者主页 / https://github.com/thu-coai/NOVA（以论文官方为准）。

1.3 小结：探针类的适用边界

优点：不用跑完整 SFT，前向 / 轻量探针即可对每条数据打分，可解释性强。
缺点：probe classifier 需要额外标注训练；forward probe 对大模型前向算力仍有消耗；探测的是”模型当前状态下的熟悉度”，与”训练后能否提升”不完全等价。
建议组合用：forward probe（ICP）做粗筛 + 一个 reward model / 复杂度指标做精排。

2. Influence-based / Data Attribution 方法

这类方法的哲学是：直接估计”这条数据对目标能力的贡献有多大”，本质上是 leave-one-out 的高效近似。比”训完跑 benchmark”快得多，因为只需要算梯度相似度，不需要重训。

2.1 Influence Functions（奠基）

论文：Understanding Black-box Predictions via Influence Functions（ICML 2017）
作者 / 机构：Pang Wei Koh, Percy Liang —— Stanford
链接：https://arxiv.org/abs/1703.04730
核心：用鲁棒统计里的影响函数，把模型预测回溯到训练数据，找出最影响某预测的训练点。需 Hessian-vector product。
与数据质量：影响值大的数据 = 对目标任务贡献大；影响值异常的数据可能是噪声 / 离群点。
代码：https://github.com/kohpangwei/influence-release

2.2 Data Shapley

论文：Data Shapley: Equitable Valuation of Data for Machine Learning（ICML 2019）
作者 / 机构：Amirata Ghorbani, James Zou —— Stanford
链接：https://arxiv.org/abs/1904.02868
核心：把 Shapley value 从博弈论引入数据估值，给每条训练数据一个”对预测器性能的边际贡献”分数。提供 Monte Carlo 与梯度法估计。
结论：低 Shapley 值数据 ≈ 噪声 / 离群点；高 Shapley 值数据指引该采什么样的新数据。比 leave-one-out / leverage score 更准。
代码：https://github.com/amiratag/DataShapley

2.3 TRAK：可扩展的 attribution

论文：TRAK: Attributing Model Behavior at Scale（ICML 2023）
作者 / 机构：Sung Min Park, Kristian Georgiev, Andrew Ilyas, Guillaume Leclerc, Aleksander Madry —— MIT Madry Lab
链接：https://arxiv.org/abs/2303.14186
核心：提出 Tracing with the Randomly-projected After Kernel，只用少量训练好的模型就能逼近”训练上千个模型”的 attribution 效果。在 ImageNet、CLIP、BERT、mT5 上验证。
对你的意义：Data Shapley / influence function 原本在大模型上不可行，TRAK 把它做大了。是给 SFT 数据做 attribution 的现代基线。
代码：https://github.com/MadryLab/trak（arXiv comment 字段官方给出）

2.4 LESS：专为 SFT 指令数据设计 ⭐

论文：LESS: Selecting Influential Data for Targeted Instruction Tuning（ICML 2024）
作者 / 机构：Mengzhou Xia, Sadhika Malladi, Suchin Gururangan, Sanjeev Arora, Danqi Chen —— Princeton NLP
链接：https://arxiv.org/abs/2402.04333
核心：Low-rank gradiEnt Similarity Search。先构造一个可复用、可迁移的”梯度数据仓”（低维梯度特征），然后选与”目标能力的 few-shot 示例”梯度相似度高的数据。

适配 Adam 优化器和变长指令数据（普通 influence function 不处理这些）。
用 LESS 选出的 5% 数据训练，往往超过用全量数据训练。
迁移性：小模型选出的数据给大模型 / 不同家族模型用也有效。
对你的意义（重点）：你 SFT Qwen3.5-4B，完全可以用 LESS 思路——选一批代表目标能力的 few-shot，对候选 SFT 数据集算梯度相似度排序，只训相似度高的子集，再跑 benchmark。一次 gradient datastore 建好可反复复用。
代码：https://github.com/princeton-nlp/LESS（arXiv comment 官方）

2.5 attribution 类小结

算力排序：Influence Functions > Data Shapley > TRAK > LESS（LESS 最实用，专为指令数据设计）。
都能在”训完跑 benchmark”之前给出数据排序信号，本质是数据探针的一种。

3. SFT / 指令数据选择与质量评估方法

3.1 DEITA：复杂度 + 质量 + 多样性三维打分 ⭐

论文：What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning（ICLR 2024）
作者 / 机构：Wei Liu, Weihao Zeng, Keqing He, Yong Jiang, Junxian He —— HKUST NLP
链接：https://arxiv.org/abs/2312.15685
核心：从 complexity、quality、diversity 三个维度度量指令数据，提出基于测量的简单选择策略。仅用 6K SFT 样本就能媲美用 10 倍数据训练的 SOTA 对齐模型；再配 DPO，7B 模型在 MT-Bench 拿 7.55、AlpacaEval 90%。
对你的意义：DEITA 是”数据探针”在 SFT 场景最系统化的实现，三维打分可直接复用到你的数据筛选 pipeline。
代码：https://github.com/hkust-nlp/deita（arXiv comment 官方）

3.2 AlpaGasus：用强 LLM 给数据打分过滤

论文：AlpaGasus: Training A Better Alpaca with Fewer Data
作者 / 机构：Lichang Chen, Shiyang Li, … Heng Huang, Hongxia Jin —— 多机构（UMD 等）
链接：https://arxiv.org/abs/2307.08701
核心：用 ChatGPT 当裁判，给 52k Alpaca 数据逐条打分，过滤出 9k 高质量子集。训练快 5.7 倍，效果反而更好。
对你的意义：最简单的”数据探针”之一——用强模型当 reward / 评分器对数据打分，几乎零实现成本，可作为 baseline。
代码 / 主页：https://lichang-chen.github.io/AlpaGasus/

3.3 Instruction Mining：自然语言指标

论文：Instruction Mining: Instruction Data Selection for Tuning Large Language Models
链接：https://arxiv.org/abs/2307.06290
核心：用自然语言指标（instruction length、response length、diversity 等）度量数据质量，配合 BlendSearch 找最优子集（2532 / 100000）。发现 LLM 微调里存在 double descent。
意义：纯规则 / 统计型数据探针，算力最低，适合做粗筛。

3.4 WizardLM / Evol-Instruct：从复杂度维度演化数据

论文：WizardLM: Empowering large pre-trained language models to follow complex instructions（ICLR 2024）
作者 / 机构：Can Xu 等 —— Microsoft
链接：https://arxiv.org/abs/2304.12244
核心：用 LLM 把初始指令逐步改写成更复杂指令（Evol-Instruct），本质是主动提升数据复杂度维度。可视为数据”质量增强”而非”质量评估”，但反向也可用作复杂度探针。
代码：https://github.com/nlpxucan/WizardLM（arXiv comment 官方）

3.5 LIMA：质量 > 数量的标志性证据

论文：LIMA: Less Is More for Alignment
作者 / 机构：Chunting Zhou, Pengfei Liu 等 —— Meta AI
链接：https://arxiv.org/abs/2305.11206
核心：65B LLaMA 只用 1000 条精心人工筛选的 prompt-response 做标准 SFT（无 RLHF），就有 43% 的情况不输 GPT-4。
意义：不是方法论文，但为”数据质量决定效果”提供了最有力的动机论证，支撑所有数据筛选研究的价值前提。

3.6 phi-1 / phi-1.5：教科书级数据

论文：Textbooks Are All You Need (phi-1)、Textbooks Are All You Need II (phi-1.5)
作者 / 机构：Suriya Gunasekar, Sébastien Bubeck, Ronen Eldan, Yuanzhi Li 等 —— Microsoft Research
链接：https://arxiv.org/abs/2306.11644 ; https://arxiv.org/abs/2309.05463
核心：1.3B 模型用”textbook quality”数据（6B web + 1B 合成）训练，HumanEval pass@1 达 50.6%。强调数据质量密度而非规模。
意义：把”高质量数据”具体化为可操作的”教科书级”标准，是合成数据质量把控的代表案例。

4. Loss / Perplexity / Reference-based 评估方法

这是”数据探针”里算力-效果折中最常用的一档：用一个参考模型算候选数据的 loss / perplexity，作为质量代理。

4.1 Marion et al.：Perplexity 做数据剪枝 ⭐

论文：When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale
作者 / 机构：Max Marion, Ahmet Üstün, Luiza Pozzobon, Alex Wang, Marzieh Fadaee, Sara Hooker —— Cohere（Sara Hooker 为知名学者）
链接：https://arxiv.org/abs/2309.04564
核心：系统对比 perplexity、Error L2-Norm、memorization 三种数据质量估计器，用于预训练数据剪枝。结论意外：简单的 perplexity 反而优于更贵的方法；只训 30% 数据即可超过不剪枝基线。
对你的意义：虽然这是预训练场景，但 perplexity-based 评估的结论对 SFT 同样有参考价值——先用一个强参考模型算候选 SFT 数据的 loss，低 loss（模型已熟悉）和高 loss（模型完全不会）两端可分别处理，中间段往往是”最有学习价值”的数据。这是最便宜的数据探针之一。

4.2 Scaling Data-Constrained LMs

论文：Scaling Data-Constrained Language Models（NeurIPS 2023）
作者 / 机构：Niklas Muennighoff, Alexander M. Rush, Boaz Barak, Teven Le Scao, Thomas Wolf, Colin Raffel 等 —— HuggingFace + Harvard（Boaz Barak 为知名理论学者）
链接：https://arxiv.org/abs/2305.16264
核心：在数据受限场景下研究重复训练 epoch 与 compute 的关系，提出考虑重复数据价值递减的 scaling law。
意义：当你 SFT 数据不够、要重复使用时，这套 scaling law 给”重复多少轮 / 数据够不够”提供了量化判据，避免无脑重复。
代码：https://github.com/huggingface/datablations（arXiv comment 官方）

4.3 RefinedWeb / Falcon：规则过滤 + 去重

论文：The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only
作者 / 机构：Guilherme Penedo 等 —— TII（Falcon）
链接：https://arxiv.org/abs/2306.01116
核心：仅用严格过滤 + 去重的 web 数据（无 curated corpus），Falcon 反超用 The Pile 训练的模型。
意义：证明”工程化规则过滤 + 去重”这种最朴素的数据探针在大规模下依然极有效，是任何 pipeline 的必备前置步骤。

4.4 DataComp-LM (DCLM)：model-based filtering 是关键 ⭐

论文：DataComp-LM: In search of the next generation of training sets for language models（NeurIPS 2024 Datasets & Benchmarks）
作者 / 机构：Jeffrey Li, Alex Fang, … Pang Wei Koh, Ludwig Schmidt, Vaishaal Shankar 等 —— 多机构（UW、Stanford、Salesforce、HuggingFace 等，Pang Wei Koh / Ludwig Schmidt 均为知名学者）
链接：https://arxiv.org/abs/2406.11794
核心：提供 240T token 语料 + 标准化评测的 testbed，系统对比去重、过滤、混合等 curation 策略。结论：model-based filtering（用一个打分模型筛数据）是组装高质量训练集的关键。DCLM-Baseline 训出的 7B 模型 MMLU 5-shot 64%，比 MAP-Neo 高 6.6 个点，算力少 40%。
对你的意义：model-based filtering 与 AlpaGasus 的”强模型打分”、NOVA 的”reward model”思路一脉相承——这是目前业界公认最有效的数据探针范式。
主页 / 代码：https://www.datacomp.ai/dclm/

5. 合成数据过滤与 Reward Model 评分

5.1 范式总览

合成 SFT 数据（GPT-4 蒸馏、Evol-Instruct 等）多了”过滤”这一步：生成大量 → 用评分器筛高质量子集。评分器主要三类：

强 LLM 当裁判（AlpaGasus、DCLM 的 model-based filtering）
Reward model 打分（NOVA 的 expert-aligned RM、DEITA 的 quality scorer）
自一致性 / 前向探针（NOVA 的 ICP）

5.2 代表方法对应表

方法	评分器类型	是否开源	出处
AlpaGasus	强 LLM (ChatGPT) 打分	是	§3.2
DEITA	训练好的 quality / complexity scorer	是	§3.1
NOVA	前向探针 ICP + reward model	是	§1.2
DCLM	model-based filter（小分类器 / perplexity）	是	§4.4
LESS	梯度相似度	是	§2.4

6. 方法全景对比

流派	代表方法	信号来源	单条算力	需训练?	开源	最适合你的场景
前向探针	NOVA ICP	模型多次采样一致性	中	否	是	★★★ 粗筛
表征探针	Conneau probing / probe classifier	中间层表征	低	需训小探针	是	复杂度可控时用
Influence	LESS	梯度相似度	中（建 gradient datastore）	否	是	★★★ 针对目标能力精选
Influence (大模型)	TRAK / Data Shapley	梯度 / Shapley	高	否	是	数据规模大时
Loss / PPL	Marion perplexity	参考模型 loss	低	否	—	★★★ 最便宜粗筛
维度打分	DEITA	复杂度+质量+多样性	低	需训 scorer	是	★★★ 系统化 pipeline
强模型裁判	AlpaGasus / DCLM	强 LLM 评分	中（API 费）	否	是	有 API 预算时
规则 + 去重	RefinedWeb	启发式规则	极低	否	是	必备前置步骤
数据增强	Evol-Instruct	LLM 演化复杂度	中	否	是	主动提质量

7. 针对你的场景（Qwen3.5-4B SFT）的可落地建议

你现在的循环是：选数据 → SFT Qwen3.5-4B → 跑 benchmark → 看分数。慢在每次都要完整 SFT。建议改成三段式，把”训完跑 benchmark”从主循环里拿出来：

第 1 段（最便宜，前置必做）—— 规则 + 去重 + PPL 粗筛

用 RefinedWeb 式规则过滤 + MinHash 去重（§4.3）。
用一个强参考模型（如 Qwen2.5-7B / Qwen3-8B，或直接用你要训的 Qwen3.5-4B base）算候选数据的 perplexity（§4.1 Marion）。先剔除 PPL 异常高（模型完全不会、可能噪声）和异常低（重复 / 过简单）两端。
这一步几乎零额外训练成本，能砍掉大部分劣质数据。

第 2 段（中成本，质量精排）—— 前向探针 + 维度打分

对粗筛后的数据跑 NOVA 的 Internal Consistency Probing（§1.2）：让 Qwen3.5-4B 对每条 instruction 多次采样，算一致性。一致性适中（模型”有点会但不完全会”）的数据最有学习价值。
叠加 DEITA 的复杂度 / 质量 / 多样性打分（§3.1）做精排。
这一步只需前向推理 + 小分类器，不训 SFT。

第 3 段（可选，针对性精选）—— LESS 梯度相似度

如果你 SFT 是为了提升某个具体能力（如数学推理、代码），用 LESS（§2.4）：准备该能力的 few-shot 示例，建一次 gradient datastore，对候选数据算梯度相似度，取 top-5%。
LESS 论文证明小模型建的 gradient datastore 可迁移给大模型，所以哪怕先用更小模型建仓也有效。

第 4 段（保留，最终验证）—— SFT + benchmark

只在前三段筛出的子集上做 SFT + benchmark，作为最终验证。原本可能要跑十几轮，现在只需 1–3 轮。
把 benchmark 结果反过来校准前三段的打分阈值（哪些探针分数区间真正对应收益），形成闭环。

预期收益：把”数据质量评估”从”训练级”降到”推理级 + 轻量训练级”，单轮评估时间从小时级降到分钟级。

8. 关键论文清单（按优先级）

LESS — Princeton NLP, ICML 2024 — arXiv:2402.04333 — github.com/princeton-nlp/LESS
DEITA — HKUST NLP, ICLR 2024 — arXiv:2312.15685 — github.com/hkust-nlp/deita
NOVA (ICP) — 清华, ACL 2025 — arXiv:2502.07340
Marion perplexity pruning — Cohere (Sara Hooker) — arXiv:2309.04564
DataComp-LM (DCLM) — UW/Stanford/Salesforce 等 (Pang Wei Koh, Ludwig Schmidt) — arXiv:2406.11794 — datacomp.ai/dclm
AlpaGasus — arXiv:2307.08701 — lichang-chen.github.io/AlpaGasus
TRAK — MIT Madry Lab, ICML 2023 — arXiv:2303.14186 — github.com/MadryLab/trak
Influence Functions — Stanford (Koh & Liang), ICML 2017 — arXiv:1703.04730 — github.com/kohpangwei/influence-release
Data Shapley — Stanford (Ghorbani & Zou), ICML 2019 — arXiv:1904.02868 — github.com/amiratag/DataShapley
Conneau probing — FAIR, ACL 2018 — arXiv:1805.01070
Scaling Data-Constrained — HuggingFace + Harvard (Boaz Barak) — arXiv:2305.16264 — github.com/huggingface/datablations
WizardLM / Evol-Instruct — Microsoft, ICLR 2024 — arXiv:2304.12244 — github.com/nlpxucan/WizardLM
LIMA — Meta AI — arXiv:2305.11206
phi-1 / phi-1.5 — Microsoft Research — arXiv:2306.11644 / arXiv:2309.05463
RefinedWeb / Falcon — TII — arXiv:2306.01116
Instruction Mining — arXiv:2307.06290

9. 几点提醒（避免踩坑）

“前向探针”≠”probe classifier”：前者只前向传播看输出一致性，后者要训小分类器，别混用术语。
PPL 不是越高 / 越低越好：Marion 论文显示 PPL 作为排序信号有效，但 SFT 场景下”最有价值”的往往是 PPL 中段（模型”半会”）的数据，两端都要小心。
LESS 的 gradient datastore 是一次性投资：建仓贵，但建完可对不同目标能力反复查询，长期摊销成本低。
强模型裁判有偏差：AlpaGasus / DCLM 的 model-based filtering 效果好，但裁判模型有自身偏好，最好与一个非 LLM 信号（PPL / 一致性）交叉验证。
benchmark 仍是 ground truth：所有探针都是 benchmark 的代理，建议保留少量 benchmark 运行用于校准探针阈值，不要完全砍掉。

报告完。所有 arXiv 编号、作者、会议、开源仓库均经 arXiv API 与论文 comment 字段核对。如需对某篇深入展开（复现步骤、代码跑通），可再单独调研。