分享好友 最新动态首页 最新动态分类 切换频道
Hugging Face周榜第一!人大高瓴与快手联合提出ARPO强化学习算法,专为Agent而生
2025-08-26 12:02

智猩猩GenAI整理

编辑:六一

多轮智能体强化学习一直备受学术界与工业界的关注,直接使用GRPO或DAPO这样的样本级强化学习算法来训练搜索、代码等智能体已不能满足需求,因为它们无法充分考虑智能体在推理过程中多轮次交互的独特特性。

为此,人大高瓴与快手团队联合提出了ARPO强化学习算法(Agentic Reinforced Policy Optimization),专为训练多轮智能体设计。ARPO创新性地引入基于熵的自适应rollout机制,动态调节全局和局部采样策略,重点增强高不确定性节点的探索能力。同时,通过优势归因估计帮助LLM内化工具交互中的策略差异。

实验显示,在计算推理、知识推理及深度搜索领域的13项基准测试中,ARPO算法仅需一半的工具使用预算便优于GRPO等传统的样本级强化学习算法。为智能体训练提供了突破性解决方案。

图片
图片

图片

论文通过熵量化研究发现:当大模型与外部工具环境交互时,会出现高熵波动现象,这意味着工具调用为推理带来了巨大的不确定性。受此启发,论文提出ARPO算法,旨在通过熵驱动大语言模型探索分步工具使用行为,具体细节如下:

图片

1. 基于熵的自适应rollout

在rollout阶段,ARPO同时采用样本级采样和基于熵的局部采样,以覆盖更全面的采样空间。该机制的设计包含以下四个核心步骤:

rollout初始化:设置全局rollout规模M,LLM基于输入问题q通过样本级采样生成N条轨迹,保留M-N条轨迹的采样预算用于局部采样。计算每条轨迹第一个token的熵值,形成初始熵矩阵Hinitial ∈ R1×k

熵变监控:在每次工具调用后,允许模型在拼接工具返回结果后继续生成k个token。对于工具调用步骤t,计算步骤级熵矩阵Ht∈ R1×k,通过ΔHt=Normalize(Ht-Hinitial)量化相对于初始状态的归一化熵变。

图片

基于熵的自适应分支:为引导模型沿熵变有益的工具使用路径进行自适应探索,工具调用步骤t的局部采样概率定义如下:

图片

其中α表示基础采样概率,β为稳定熵值。如图4(a)所示,模型通过图片值决定分支行为:当图片超过预设阈值τ时,执行Branch(Z)操作,从当前节点分支出Z条局部推理路径;否则延续当前轨迹。该机制使模型能够自适应地将探索资源分配到推理空间中熵值上升的区域,这些区域往往蕴含着更高概率的信息增益。

终止该过程持续迭代,直到分叉路径数达到预算上限M−N(停止分支并完成采样)或所有路径提前终止(补充采样至预算要求)为止。

ARPO通过这种高效rollout机制实现了不确定性感知探索,使大语言模型能有效识别步骤级工具调用行为,并将计算复杂度降至O(n log n)~O(n²)区间。

2. 优势归因估计

对于自适应rollout产生的共享推理路径和分支推理路径(图4),论文对比了两种优势分配策略:

硬优势估计:显式区分轨迹中的共享/独立部分,分别计算优势值:

独立路径使用归一化奖励Ri计算优势:

图片

共享路径的优势值取包含该片段的所有d条轨迹优势值均值。

图片

软优势估计:基于GRPO算法,通过动态调整GRPO中的重要性采样比率,隐式地区分共享与独立路径的优势信号:

图片

实验结果表明,软优势估计在ARPO训练中能稳定获得更高奖励,故将其设为默认优势估计方法。

分层奖励设计:奖励函数综合评估答案正确性、格式规范性和多工具协作性(如搜索、Python),对同时满足三项条件的模型给予额外奖励rM。总奖励R定义为:

图片

图片

数学与知识密集型推理任务结果如上表所示。ARPO算法优于所有样本级强化学习算法,显著确立了其技术优势。此外,论文进一步总结出以下关键发现:

提示方法局限:工具集成提示法(TIR)效果不佳,表明仅依赖提示工程不足以引导大模型掌握最优工具使用策略,还可能干扰其固有推理能力。

样本级RL缺陷:经典样本级RL在多轮工具调用场景表现欠佳,其难以在LLM中激发步骤级工具使用行为学习。

ARPO优势:在10个数据集上平均提升4%准确率,且在Qwen/Llama等不同骨干模型上均表现优异,展现强大适应性。

图片

ARPO在深度搜索任务中展现出显著优势:仅用1K样本训练,Qwen3-8B/14B便在多个基准上显著优于GPT-4o和DeepSeek-R1等最先进的基线模型,突显其在工具协同推理能力上的高效性

其核心在于通过平衡全局和步骤级采样策略,促进了LLM在高熵工具使用步骤中的多样化行为探索,对于需要频繁调用工具的深度搜索场景至关重要。

最新文章
她花几十万“购买”爱情:重氪、梦稿,乙游背后的情绪产业链
16万元,是玩家肉松一年半时间里为虚拟恋人“沈星回”投入的真金白银。“大型活动月,充值轻松过万;即便日常小型活动,也要投入三五千元。”肉松只是万千个“她们”中的一个缩影,在这个圈子里,重氪十万级已是稀松平常。抽卡瞬间的心跳、
10月底前完工!这些口袋公园有你家附近的吗?
近日一大早下陆区白马山社区康乐小区居民刘阿姨在新建的口袋公园集中晾晒区晾好被子后带着小外孙在儿童娱乐区玩耍这里原本是小区内一块荒废绿地,地被植物稀疏,残破不堪。今年,康乐小区口袋公园作为2025年黄石市政府“十件实事”口袋公园
北京发布第六轮拟供宅地清单
人民财讯7月30日电,今日,北京市规划和自然资源委员会网站发布了2025年第六轮拟供应商品住宅用地清单,共涉及5宗地,土地面积约13公顷,建筑规模约24万平方米,上述用地拟于近期供应。据了解,本轮推出的地块均位于轨道交通站点周边市场需
沈阳税务:离境退税添彩“方城购”
沈阳市沈河区坐拥沈阳故宫、张学良旧居、中街等热门文旅资源,是外国游客领略辽沈文化的核心目的地之一,持续吸引全球游客到访。随着《关于进一步优化离境退税政策扩大入境消费的通知》政策推行以及辽宁推动发展入境游等举措落地,离境退税
从治病到防未病,企业家们为何青睐八子补肾?
《中国企业家健康绿皮书(2024版)》数据显示,超半数企业家被甲状腺结节困扰,检出率高达54.11% ;体重指数(BMI)增高、脂肪肝、骨质疏松检出率均超过四成,分别为49.22%、43.49%、43.92%。企业家们肩负着推动经济发展的重任,却也承受着超乎
定了!海曙启动免费检查!
最新消息,海曙区2025年适龄妇女免费两癌筛查开始啦!名额有限,先到先得!01、筛查项目妇科常规检查、白带常规、子宫附件彩超检查、人乳头瘤病毒(HPV)mRNA检测、TCT检查、乳腺彩超检查。02、报名对象面向已加入海曙区工会的在职已婚女职
临商银行宁波分行“贷后管理质效提升年”活动取得阶段性成效
贷后管理是风险防控的最后一道防线,自开展“贷后管理质效提升年”专项活动以来,临商银行宁波分行持续完善事前预防、事中控制、事后处置的全流程管理体系,截至2025年7月末,分行不良贷款率较年初下降0.45个百分点,预警信号处置均能在2个
Hugging Face周榜第一!人大高瓴与快手联合提出ARPO强化学习算法,专为Agent而生
智猩猩GenAI整理编辑:六一多轮智能体强化学习一直备受学术界与工业界的关注,直接使用GRPO或DAPO这样的样本级强化学习算法来训练搜索、代码等智能体已不能满足需求,因为它们无法充分考虑智能体在推理过程中多轮次交互的独特特性。为此,
郴州立领域附近购房补贴:提供购房优惠及政策支持,助力居民轻松置业,享受便捷生活。
郴州立领域周边购房正当时,推出多重优惠补贴,让买房不再是难题,无论是刚需还是改善型需求,都能找到适合自身的政策支撑,轻松置业即刻享受便利生活,50%契税补贴2025年3月1日前购房契税直接减半,人才购房优惠符合条件的人才额外享补贴
胡玉亭主持召开全省项目投资工作会议
8月22日,省委副书记、省长胡玉亭主持召开全省项目投资工作会议。他强调,要认真学习贯彻习近平总书记在听取吉林省委和省政府工作汇报时的重要讲话精神,落实省委全会部署,科学把握当前投资形势,坚持超常规发力、有组织攻坚,更加积极有
相关文章
推荐文章
发表评论
0评