这项由腾讯混元实验室的杨凯、徐鑫等研究人员与香港科技大学合作完成的研究成果发表于2025年11月,论文编号为arXiv:2511.15248v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
在人工智能的世界里,训练大语言模型就像培养一个学生:你希望这个学生既要保持好奇心和探索欲,又要能稳定地掌握知识。然而,现实中的AI训练过程往往面临一个棘手问题——模型在学习过程中会逐渐失去探索新可能性的能力,就像一个原本充满求知欲的学生慢慢变得只会死记硬背标准答案。
腾讯混元团队发现了这个问题的核心所在,并提出了一个名为"EntroPIC"的解决方案。这个名称结合了"熵"(Entropy)和"比例积分控制"(Proportional-Integral Control),就像给AI安装了一个智能调节器,能够自动维持模型的最佳学习状态。
研究团队发现,当前的强化学习方法在训练大语言模型时存在一个根本性困扰:模型的"探索性"会随着训练时间的推移而急剧下降。用通俗的话说,就像一个学生刚开始学习时会尝试各种不同的解题方法,但随着时间推移,逐渐只会使用最熟悉的那一种方法,失去了创新思维。这种现象在AI领域被称为"熵衰减",会导致模型过早收敛到次优解,无法充分发挥其潜力。
更令人困扰的是,现有的解决方法要么效果有限,要么会带来新的问题。一些方法试图通过掩蔽某些token或调整权重来增加多样性,但这些方法往往会损失重要的梯度信息。另一些方法则在奖励函数中加入熵奖励项,但这种做法对超参数极其敏感,难以在大规模训练中稳定应用。
腾讯混元团队的创新在于,他们首次从控制论的角度来解决这个问题。研究团队发现,正样本训练会降低熵(减少探索性),而负样本训练会增加熵(增强探索性),这种相互对立的效应可以通过精确的控制机制来平衡。他们设计的EntroPIC方法就像一个精密的温控器:当模型的探索性过低时,系统会自动增强正样本的影响;当探索性过高时,则会加强负样本的作用,从而始终维持在理想的平衡状态。
研究团队不仅提出了理论方案,还提供了严格的数学证明。他们证明了在在线策略(on-policy)学习中,仅使用比例控制就足以实现熵的收敛;而在离线策略(off-policy)学习中,则需要比例积分控制才能消除稳态误差。这种理论保证为方法的可靠性提供了坚实基础。
一、从理论到实践:EntroPIC的工作原理
要理解EntroPIC的工作机制,可以把它想象成一个智能的天平。在传统的AI训练中,模型就像站在天平上的人,随着学习的进行,这个人会不断向"保守"的一边倾斜,最终失去平衡。EntroPIC就是那个敏感的平衡调节装置,能够实时感知天平的倾斜程度,并通过微调两边的重量来维持完美平衡。
具体来说,EntroPIC通过一个巧妙的数学公式来调整训练过程。当系统检测到模型的熵值偏离目标时,它会计算出一个修正系数α,这个系数会动态调整正样本和负样本的权重。如果当前熵值低于目标值,说明模型过于保守,系统就会降低正样本的权重,同时提高负样本的权重,鼓励模型多尝试不同的答案。反之,如果熵值过高,说明模型过于"散漫",系统就会增加正样本权重,引导模型更专注于正确答案。
这个过程的精妙之处在于它的自适应性。传统方法需要人工调节各种参数,就像手动调节收音机的频道一样繁琐且不精确。而EntroPIC采用的比例积分控制原理,不仅能对当前的偏差进行即时响应(比例控制),还能记住历史的偏差模式并进行长期修正(积分控制),确保系统不会产生累积误差。
研究团队还发现了一个重要细节:并非所有的token都需要被调节。他们发现,只需要调整那些高概率token的权重就能达到很好的控制效果。这就像调节音响时,你不需要调整每一个频段,只需要调整那些最重要的几个频段就能获得理想的音质。这种选择性调节不仅提高了效率,还减少了对低概率事件的干扰,避免了压制模型学习新颖表达的可能性。
研究团队通过数学分析证明,这种高概率token的选择性调节策略在理论上与全面调节具有相同的收敛性质。他们设定了一个概率阈值(通常是95%),只对超过这个阈值的token应用权重调节。这样做的好处是显而易见的:高概率token更容易识别,不需要依赖复杂的采样策略;同时,这种做法能更好地鼓励探索,因为它避免了对稀有事件的过度压制。
二、实验验证:在数学推理中的卓越表现
为了验证EntroPIC的实际效果,研究团队选择了数学推理这个极具挑战性的测试场景。数学推理对AI来说特别困难,因为它不仅需要逻辑思维,还需要在多种解题路径中找到最优方案。如果一个模型在训练过程中过早失去探索能力,它就可能只会使用最常见的解题方法,无法应对需要创新思维的复杂问题。
实验设置颇为严谨。研究团队使用了Qwen3-8B基础模型,首先对其进行监督微调,赋予其基本的数学能力,然后在多个权威数学数据集上进行强化学习训练,包括DAPO-MATH-17K、OpenReasonerZero和DeepScaleR等。测试环节则覆盖了OMNI-MATH、AIME2024、AIME2025、AMC、MATH和OlympiadBench等多个标准评测集,确保结果的全面性和可信度。
EntroPIC与现有方法的对比结果令人印象深刻。在在线策略训练中,传统的GRPO方法在1000步训练后出现了显著的熵衰减,导致后续性能停滞不前。相比之下,EntroPIC成功将熵值稳定在目标水平,实现了持续的性能提升。在最终的评测中,EntroPIC在平均通过率上比GRPO提高了3.5%,在单次通过率上提高了3.8%,这在大语言模型的性能评估中是相当可观的改进。
更有趣的是,研究团队还观察到了一个意外的现象:使用EntroPIC训练的模型在生成答案时经常出现"等等"、"换个思路"、"让我重新考虑"等反思性表达。这表明高熵策略确实增强了模型的探索性思维,使其能够主动验证和修正自己的推理过程,生成多种有效的解题方案。
相比之下,使用传统方法训练的模型在后期阶段表现出明显的低熵特征,输出的是单一路径、线性推理,几乎没有自我纠错或探索性转向的迹象。这种对比清晰地展示了熵控制对于维持模型推理能力多样性的重要意义。
三、技术创新:比例积分控制的巧妙应用
EntroPIC最大的技术创新在于将经典的比例积分控制理论引入到了深度学习领域。比例积分控制最初是工程控制领域的核心技术,广泛应用于温度控制、速度调节等场景。研究团队巧妙地将这一成熟理论移植到了AI训练过程中,为熵控制提供了理论保障和实际可操作性。
在连续时间系统中,比例积分控制的数学表达为u(t) = Kp·e(t) + Ki·∫e(τ)dτ,其中e(t)是误差信号,Kp和Ki分别是比例增益和积分增益。在AI训练的离散环境中,积分项被求和替代,变为u(n) = Kp·e(n) + Ki·Σe(k)。这种改造使得系统能够同时响应当前的熵偏差(比例项)和历史累积的偏差(积分项)。
研究团队通过严格的数学推导证明了这种控制策略的收敛性。在在线策略学习中,仅比例控制就足以保证熵误差趋向于零。这是因为在线策略学习中,采样策略和训练策略是一致的,不存在分布偏移问题。然而,在离线策略学习中,采样策略和训练策略的不一致会产生稳态偏差,这时就需要积分控制来消除这种系统性偏差。
这种理论分析的价值不仅在于证明了方法的有效性,更在于为实际应用提供了明确的指导。例如,在在线策略训练中,用户可以仅设置比例增益Kp,简化参数调节;而在离线策略训练中,则需要同时调节Kp和Ki两个参数。研究团队建议的默认设置是Kp=1,Ki=0.01,这个配置在大多数情况下都能取得良好效果。
四、适用范围与实际部署考虑
EntroPIC的设计充分考虑了实际应用的需求。研究团队专门设计了一个"即插即用"的实验,证明这种方法可以在已有的训练过程中期引入,而不需要从头开始重新训练。当研究人员发现模型的熵开始下降时,可以立即启用EntroPIC,系统会自动将熵调整回目标水平,并恢复性能增长趋势。
这种灵活性对于实际的工业部署极其重要。在大规模的AI训练项目中,重新开始训练往往意味着巨大的时间和计算成本。EntroPIC的即插即用特性使得研究人员能够在发现问题时及时干预,而不是眼睁睁看着性能停滞。
研究团队还测试了EntroPIC在不同温度设置下的表现。温度是控制模型生成随机性的重要参数,较高的温度会增加输出的多样性。实验结果显示,即使在温度设为1.0的高随机性环境中,EntroPIC仍然能够有效控制熵值,并取得比基础方法更好的性能。这证明了该方法的鲁棒性和广泛适用性。
在超过100万个提示的大规模训练实验中,EntroPIC展现出了良好的稳定性和可扩展性。系统在长时间运行过程中始终保持了对目标熵值的精确控制,没有出现振荡或发散现象。这种稳定性对于需要连续训练数天甚至数周的大型模型项目来说至关重要。
五、理论贡献与实践意义
从理论层面看,这项研究首次系统性地分析了正负样本对模型熵值的不同影响机制。研究团队通过数学推导证明了一个重要结论:在二元奖励分布下,正样本训练必然降低熵值,负样本训练必然提高熵值。这个发现为理解强化学习训练过程中的熵动态提供了坚实的理论基础。
更进一步,研究团队建立了熵变化与token概率、优势函数协方差之间的精确数学关系。他们证明了熵变化的方向和幅度可以通过调节正负样本的权重来精确控制,这为设计有效的熵调节策略提供了数学指导。这种理论框架不仅解释了EntroPIC的工作原理,也为未来的相关研究奠定了基础。
在实践层面,EntroPIC的成功应用证明了控制论方法在深度学习中的巨大潜力。传统的深度学习训练往往依赖试错和经验调参,缺乏系统性的理论指导。EntroPIC的成功表明,将成熟的控制理论引入到机器学习中,可以显著提高训练过程的可控性和可预测性。
研究团队特别强调了该方法在数学和编程等可验证奖励领域的重要价值。在这些领域,RLVR(基于可验证奖励的强化学习)已经成为主流方法,因为它能够避免奖励模型的偏差问题。然而,RLVR的性能天花板很大程度上取决于熵控制的质量。EntroPIC为RLVR提供了一个可靠的熵控制解决方案,有望推动这类应用的进一步发展。
六、未来发展与局限性分析
尽管EntroPIC取得了显著成果,但研究团队也诚实地指出了当前方法的局限性。首先,目标熵值需要手动设定,这在高度动态的训练环境中可能不够灵活。研究团队建议未来的工作可以探索自适应目标熵调节机制,让系统能够根据训练进展自动调整熵目标。
其次,在某些训练场景中,如果基础的在线策略训练已经能够维持熵稳定性,EntroPIC可能无法带来显著的额外收益。这提示我们需要更精确地识别哪些训练场景最需要熵控制干预。研究团队建议在应用EntroPIC之前,先评估基础训练方法的熵稳定性,以确定是否有必要引入额外的控制机制。
展望未来,这项研究开启了多个有前景的研究方向。例如,可以探索将EntroPIC扩展到其他类型的强化学习任务,如游戏AI、机器人控制等领域。还可以研究如何将熵控制与其他训练优化技术相结合,形成更加完整的训练框架。
另一个有趣的方向是研究不同任务类型对熵控制策略的不同需求。数学推理任务可能需要相对较高的熵来鼓励探索,而某些需要精确控制的任务可能更适合较低的熵设置。未来的研究可以建立不同任务类型与最优熵控制策略之间的映射关系。
说到底,这项研究解决的是AI训练中一个非常实际的问题:如何让模型在学习过程中始终保持最佳状态。EntroPIC不仅提供了一个有效的技术解决方案,更重要的是,它展示了跨学科方法在AI研究中的巨大价值。通过将控制论的成熟理论引入深度学习,研究团队为这个快速发展的领域带来了新的思路和工具。
对于普通用户来说,这项研究的意义在于它有望让AI系统变得更加智能和可靠。当AI能够在学习过程中保持适度的"好奇心"和"创造力"时,它就能更好地处理复杂多变的现实问题,为我们提供更加准确和有用的服务。虽然这些改进可能在日常使用中不容易直接感知,但它们将在AI系统的长期性能和稳定性方面发挥重要作用。
Q&A
Q1:EntroPIC方法是什么原理?
A:EntroPIC是腾讯混元团队开发的AI训练控制技术,就像给AI安装了一个智能调节器。它通过动态调整正负样本的权重来维持模型的最佳学习状态,防止模型在训练过程中过早失去探索能力,确保AI能持续学习和改进。
Q2:EntroPIC解决了AI训练中什么问题?
A:解决了AI模型在长期训练中逐渐失去创新能力的问题。传统训练方法会让AI变得越来越保守,只会用熟悉的方法解题。EntroPIC通过精确控制让AI始终保持适度的"好奇心",能够尝试多种解题思路。
Q3:普通人能否直接使用EntroPIC技术?
A:目前EntroPIC主要是面向AI研究人员和开发者的技术工具,普通用户无法直接使用。但这项技术未来可能会被集成到各种AI产品中,间接让我们享受到更智能、更稳定的AI服务。