8 个 H100 显卡训练 1 小时,即可让所训练的 Qwen2.5-Math-CFT 模型媲美 DeepSeek-R1 的性能。背后“秘诀”只有一个:采用由加拿大滑铁卢大学团队和美国卡内基梅隆大学团队提出的批判性微调(CFT,Critique Fine-Tuning)模型优化技术。
DeepSeek-R1 是采用强化学习方法打造的模型,而 Qwen2.5-Math-CFT 的计算资源消耗量,仅有 DeepSeek-R1 的 1/140。
当在包括 MATH 和 AIME24 在内的六个数学基准上进行评估时,批判性微调训练的模型始终比最佳监督微调训练的模型平均高出 4%-10%。同时,批判性微调仅需要 50K 的训练样本,而监督微调需要 2M+的训练样本。
图 | 批判性微调(来源:arXiv)
也就是说,批判性微调使用更少的训练数据实现了更快的收敛,因此对于开发数学推理模型来说它是一种更加有效的方法。虽然像 GPT-4o 这样的前沿闭源模型仍然保持着性能领先,但本次研究表明利用批判性微调,可以帮助较小的模型以更少的资源实现更强的性能。
与此同时,即使没有传统的指令调优,批判性微调训练的模型也可以有效地遵循指令,这挑战了监督微调或强化学习必须遵循指令的传统观念。因此,研究人员认为批判性微调是一种新的范式,它从根本上重新构想了语言模型到底该如何从指令数据中学习。
不同于侧重响应模仿的监督微调(SFT,Supervised Fine-Tuning),批判性微调能让模型学会批判性地分析嘈杂响应,而不是简单地模仿正确的响应。
以人类学习过程中的“批判思考”为灵感
对于监督微调来说,它能让模型模仿给定指令的注释响应。但是,如果你仔细观察就会发现,我们人类学习过程往往会伴随着批判性思维。
基于这一启发,研究人员提出了批判性微调,它能够鼓励模型进行更深入的分析和理解,而这些特质通常会被监督微调所忽视。
为了验证批判性微调的有效性,研究人员构建了几个微调数据集。与此同时,大多数实验都是基于 WebInstruct——这是一个从在线教育资源和智力竞赛网站收集的教学数据集。
不同于来自数学竞赛和其他比赛的数据集,WebInstruct 数据集的涵盖种类较多,包括数学(65%)、物理(8%)、化学(4%)、商业(10%)、人文(4%)等。
WebInstruct 中的响应由大模型进行提取和完善,由于缺乏验证或质量控制,它们很容易受到噪音的影响。因此,研究人员从 WebInstruct 中精选了以下子集。
第一个子集是 WebInstruct SFT,即直接从原始 WebInstructs 数据集中采样的 50K 子集,该子集的错误率高于 50%。
第二个子集是 WebInstruct-verified,研究人员采用了 WebInstructs 的样本,与此同时保留了前 50K 个样本作为“已验证”的监督微调数据。
第三个子集是 WebInstruct-GPT-4o,这是一个 50K 子集,它复用了 WebInstruct-SFT 中的问题,但是使用 GPT-4o-1120 生成的答案替换了原答案。
第四个子集是 WebInstruct-CFT,这是一个从 WebInstruct-SFT 派生的 50K 子集。该子集中大约 56% 的回复被判定为“正确”,其余的则被认为是“错误的”。尽管包含一些由 GPT-4o 引入的批判错误,但该数据集的质量与 WebInstruct-GPT-4o 相当。
第五个子集是 WebInstruct CFT Tiny,这是 WebInstruct-CFT 的一个较小版本,仅包含 4K 示例。
研究人员将批判性微调数据集与现有的监督微调数据集进行比较。如图所示,研究人员的数据集涵盖了更广泛的主题,同时规模要小得多,这突出了这些数据集在提高大模型推理能力方面的效率。
(来源:arXiv)
除了 WebInstruct,研究人员还综合了 MetaMathQA 和 NuminaMath 等其他数据集,并从每个数据集中随机抽取 50K 个样本,以及使用 GPT-4o 针对原始响应进行评价。然后,研究人员将批判性微调用于这些数据集,以证明本次方法在其他数据集上的通用性。
只需在 8 个 H100 上训练 1 小时
在标准数学推理能力验证上,研究人员评估了 MATH、Minerva MATH 和 GSM8K。为了评估更具挑战性的竞赛级数学成绩,专门纳入了美国邀请数学考试的 AIME 2024、美国数学竞赛的 AMC 2023 以及包含各种难度级别的数学奥林匹克问题的 OlympiadBench。
通过使用用于数学定理理解的 TheoremQA、涵盖数理化等的 MMLU-Pro 以及用于推理复杂问题的 GPQA,研究人员进一步地将评估扩展到 STEM 推理能力上,并通过实验评估了三种不同的监督微调设置和一种批判性微调设置。
对于监督微调,研究人员主要针对原始噪声响应进行直接训练,并开展经过 GPT-4o 验证的响应训练,以及针对 GPT-4o 产生的响应进行训练。
对于批判性微调,研究人员使用精选的批判性微调数据集来训练模型。通过使用 MATH500 作为验证集,并在针对整个数据集进行 1 个 epoch 的训练之后,选择出来表现最佳的检查点。
在所有实验中,超参数始终保持一致,学习率为 5e-6,余弦衰减学习时间表的预热比为 0.1,全局 batch 大小为 512。(注:学习率,是一个用于控制模型在训练过程中参数更新步长的数值。)
为了评估批判性微调的有效性,研究人员使用数学推理基准,在三个 7B 基础模型上将其与各种监督微调方法进行比较。
图 | 不同基础模型和不同方法的综合结果(来源:arXiv)
所使用的三个 7B 基础模型分别是:DeepSeek-Math-7B、Qwen2.5-7B 和 Qwen2.5 Math-7B。
结果表明,Qwen2.5-Math-7B 的基础版本在基准测试中的平均准确率为 37.8%,当使用批判性微调进行增强时它达到了最佳性能,平均准确率为 57.1%。
值得注意的是,批判性微调在不同模型中始终优于所有监督微调基线。在 DeepSeek-Math7B 上,它比监督微调 GPT-4o 实现了 3.5% 的绝对改进。
在 Qwen2.5-7B 上,批判性微调比监督微调有着 10.4% 的实质性改善。在 Qwen2.5-Math-7B 上,批判性微调比 GPT-4o 的监督微调基线高出 6.7%。
(来源:arXiv)
上图展示了 Qwen2.5-Math-7B 基于不同方法的训练动态。其中,批判性微调在第 30 步左右表现出更快的收敛速度,并在整个训练过程中拥有更高的性能。
同时,批判性微调在 MATH 上的准确率约为 80%,而 SFT-G 的准确率为 70%,SFT-V 的准确率为 60%。在 Minerva-Math 上,批判性微调的准确率约为 40%,而两种监督微调变体即 SFT-G 和 SFT-V 的准确率均为 20%。
与此同时,研究人员将其所使用的性能最佳的批判性微调模型,与其他不同参数规模的对标模型进行比较。同时,还扩大了评估基准以便涵盖更加广泛的 STEM 主题。
(来源:arXiv)
结果显示:研究人员的 Qwen2.5-Math-7B-CFT 在 7B 模型中实现了 48.1% 的最高平均性能,这一性能远远优于其他专业数学模型。
同时,Qwen2.5-Math-7B-CFT 的训练数据仅为 50K 个样本。而 AceMathQwen2.5-Math 使用 2.3M 个样本,Qwen2.5-Math-7BInstruct 使用 2.5M 个样本,这说明批判性微调的数据效率非常高。
如下表所示,研究人员还针对 Qwen2.5-32B-Instruct-CFT 和 Sky-T1-32B Preview 加以详细比较。
(来源:arXiv)
结果显示:批判性微调最显著的优势在于能够提高数据效率。与 SkyT1-32B-Preview 的 17K 样本相比,Qwen2.5-32B-Instruct-CFT 仅使用 4K 训练样本即可实现最佳性能。
与此同时,Qwen2.5-32B-Instruct-CFT 的训练数据仅为前者的四分之一,这证明了批判性微调在没有长思维链的情况下,能够从更少的样本中学习的有效性。
同时,研究人员的模型在 GPQA 上达到了 52.5% 的准确率,超过了 Sky-T1 的 49.5%。在 TheoremQA 上,它显示出与 Sky-T1 相当的性能。对于 AMC23,Sky-T1 能够实现 62.5% 的准确率,而研究人员的模型准确率达到 77.5%。
此外,研究人员还将采用批判性微调训练的模型,与采用强化学习训练的模型加以比较。需要说明的是:这一系列比较均以 Qwen2.5-Math-7B-base 作为初始化模型。
(来源:arXiv)
此前,有研究表明强化学习可以显著提高大模型的推理能力。为此,研究人员与 DeepSeek-R1 的复制体 SimpleRL 进行比较。并将完全基于强化学习打造的模型 SimpleRL-Zero、和基于“Distill+强化学习”打造的模型 SimpleRL 作为对标,需要说明的是 SimpleRL-Zero 和 SimpleRL 都需要在 32 个 H100 上进行 1.5 天的训练。相比之下,采用批判性微调的方法模型只需要在 8 个 H100 上训练 1 小时。
此外,批判性微调不需要较长的解码长度,从而能够提高效率。正因此,批判性微调可以将 Qwen2.5-Math-7B 提高到与 SimpleRL 相同的水平。在 AMC23 和 Minverva Math 等多个基准测试中,批判性微调训练的模型的性能明显优于 SimpleRL。
总的来说,批判性微调在提高语言模型训练的效率和效果上迈出了重要一步,在降低计算资源和数据需求的同时,还有望提高模型的推理能力。
而 GPQA 和 TheoremQA 等基准测试的卓越性能,证明批判性微调不仅能让数学推理受益,还能扩展到更广泛的 STEM 领域。
研究人员也表示,这一成果为提高语言模型能力开辟了新方向,假如将批判性微调与监督微调、强化学习等其他训练范式相结合,则能被扩展用于打造多模态模型。
参考资料:
1.https://arxiv.org/pdf/2501.17703
排版:希幔