Hugging Face周榜第一！人大高瓴与快手联合提出ARPO强化学习算法，专为Agent而生

Hugging Face周榜第一！人大高瓴与快手联合提出ARPO强化学习算法，专为Agent而生

2025-08-26 12:02

智猩猩GenAI整理

编辑：六一

多轮智能体强化学习一直备受学术界与工业界的关注，直接使用GRPO或DAPO这样的样本级强化学习算法来训练搜索、代码等智能体已不能满足需求，因为它们无法充分考虑智能体在推理过程中多轮次交互的独特特性。

为此，人大高瓴与快手团队联合提出了ARPO强化学习算法(Agentic Reinforced Policy Optimization)，专为训练多轮智能体设计。ARPO创新性地引入基于熵的自适应rollout机制，动态调节全局和局部采样策略，重点增强高不确定性节点的探索能力。同时，通过优势归因估计帮助LLM内化工具交互中的策略差异。

实验显示，在计算推理、知识推理及深度搜索领域的13项基准测试中，ARPO算法仅需一半的工具使用预算便优于GRPO等传统的样本级强化学习算法。为智能体训练提供了突破性解决方案。

论文通过熵量化研究发现：当大模型与外部工具环境交互时，会出现高熵波动现象，这意味着工具调用为推理带来了巨大的不确定性。受此启发，论文提出ARPO算法，旨在通过熵驱动大语言模型探索分步工具使用行为，具体细节如下：

1. 基于熵的自适应rollout

在rollout阶段，ARPO同时采用样本级采样和基于熵的局部采样，以覆盖更全面的采样空间。该机制的设计包含以下四个核心步骤：

rollout初始化：设置全局rollout规模M，LLM基于输入问题q通过样本级采样生成N条轨迹，保留M-N条轨迹的采样预算用于局部采样。计算每条轨迹第一个token的熵值，形成初始熵矩阵H_initial ∈ R^1×k。

熵变监控：在每次工具调用后，允许模型在拼接工具返回结果后继续生成k个token。对于工具调用步骤t，计算步骤级熵矩阵H_t∈ R^1×k，通过ΔH_t=Normalize(H_t-H_initial)量化相对于初始状态的归一化熵变。

基于熵的自适应分支：为引导模型沿熵变有益的工具使用路径进行自适应探索,工具调用步骤t的局部采样概率定义如下：

其中α表示基础采样概率，β为稳定熵值。如图4(a)所示，模型通过值决定分支行为：当超过预设阈值τ时，执行Branch(Z)操作，从当前节点分支出Z条局部推理路径；否则延续当前轨迹。该机制使模型能够自适应地将探索资源分配到推理空间中熵值上升的区域，这些区域往往蕴含着更高概率的信息增益。

终止：该过程持续迭代，直到分叉路径数达到预算上限M−N（停止分支并完成采样）或所有路径提前终止（补充采样至预算要求）为止。

ARPO通过这种高效rollout机制实现了不确定性感知探索，使大语言模型能有效识别步骤级工具调用行为，并将计算复杂度降至O(n log n)~O(n²)区间。

2. 优势归因估计

对于自适应rollout产生的共享推理路径和分支推理路径（图4），论文对比了两种优势分配策略：

硬优势估计：显式区分轨迹中的共享/独立部分，分别计算优势值：

独立路径使用归一化奖励R_i计算优势：

共享路径的优势值取包含该片段的所有d条轨迹优势值均值。

软优势估计：基于GRPO算法，通过动态调整GRPO中的重要性采样比率，隐式地区分共享与独立路径的优势信号：

实验结果表明，软优势估计在ARPO训练中能稳定获得更高奖励，故将其设为默认优势估计方法。

分层奖励设计：奖励函数综合评估答案正确性、格式规范性和多工具协作性（如搜索、Python），对同时满足三项条件的模型给予额外奖励r_M。总奖励R定义为：

数学与知识密集型推理任务结果如上表所示。ARPO算法优于所有样本级强化学习算法，显著确立了其技术优势。此外，论文进一步总结出以下关键发现：

提示方法局限：工具集成提示法（TIR）效果不佳，表明仅依赖提示工程不足以引导大模型掌握最优工具使用策略，还可能干扰其固有推理能力。

样本级RL缺陷：经典样本级RL在多轮工具调用场景表现欠佳，其难以在LLM中激发步骤级工具使用行为学习。

ARPO优势：在10个数据集上平均提升4%准确率，且在Qwen/Llama等不同骨干模型上均表现优异，展现强大适应性。

ARPO在深度搜索任务中展现出显著优势：仅用1K样本训练，Qwen3-8B/14B便在多个基准上显著优于GPT-4o和DeepSeek-R1等最先进的基线模型，突显其在工具协同推理能力上的高效性。

其核心在于通过平衡全局和步骤级采样策略，促进了LLM在高熵工具使用步骤中的多样化行为探索，对于需要频繁调用工具的深度搜索场景至关重要。