分享好友 最新动态首页 最新动态分类 切换频道
Hugging Face周榜第一!人大高瓴与快手联合提出ARPO强化学习算法,专为Agent而生
2025-08-26 12:02

智猩猩GenAI整理

编辑:六一

多轮智能体强化学习一直备受学术界与工业界的关注,直接使用GRPO或DAPO这样的样本级强化学习算法来训练搜索、代码等智能体已不能满足需求,因为它们无法充分考虑智能体在推理过程中多轮次交互的独特特性。

为此,人大高瓴与快手团队联合提出了ARPO强化学习算法(Agentic Reinforced Policy Optimization),专为训练多轮智能体设计。ARPO创新性地引入基于熵的自适应rollout机制,动态调节全局和局部采样策略,重点增强高不确定性节点的探索能力。同时,通过优势归因估计帮助LLM内化工具交互中的策略差异。

实验显示,在计算推理、知识推理及深度搜索领域的13项基准测试中,ARPO算法仅需一半的工具使用预算便优于GRPO等传统的样本级强化学习算法。为智能体训练提供了突破性解决方案。

图片
图片

图片

论文通过熵量化研究发现:当大模型与外部工具环境交互时,会出现高熵波动现象,这意味着工具调用为推理带来了巨大的不确定性。受此启发,论文提出ARPO算法,旨在通过熵驱动大语言模型探索分步工具使用行为,具体细节如下:

图片

1. 基于熵的自适应rollout

在rollout阶段,ARPO同时采用样本级采样和基于熵的局部采样,以覆盖更全面的采样空间。该机制的设计包含以下四个核心步骤:

rollout初始化:设置全局rollout规模M,LLM基于输入问题q通过样本级采样生成N条轨迹,保留M-N条轨迹的采样预算用于局部采样。计算每条轨迹第一个token的熵值,形成初始熵矩阵Hinitial ∈ R1×k

熵变监控:在每次工具调用后,允许模型在拼接工具返回结果后继续生成k个token。对于工具调用步骤t,计算步骤级熵矩阵Ht∈ R1×k,通过ΔHt=Normalize(Ht-Hinitial)量化相对于初始状态的归一化熵变。

图片

基于熵的自适应分支:为引导模型沿熵变有益的工具使用路径进行自适应探索,工具调用步骤t的局部采样概率定义如下:

图片

其中α表示基础采样概率,β为稳定熵值。如图4(a)所示,模型通过图片值决定分支行为:当图片超过预设阈值τ时,执行Branch(Z)操作,从当前节点分支出Z条局部推理路径;否则延续当前轨迹。该机制使模型能够自适应地将探索资源分配到推理空间中熵值上升的区域,这些区域往往蕴含着更高概率的信息增益。

终止该过程持续迭代,直到分叉路径数达到预算上限M−N(停止分支并完成采样)或所有路径提前终止(补充采样至预算要求)为止。

ARPO通过这种高效rollout机制实现了不确定性感知探索,使大语言模型能有效识别步骤级工具调用行为,并将计算复杂度降至O(n log n)~O(n²)区间。

2. 优势归因估计

对于自适应rollout产生的共享推理路径和分支推理路径(图4),论文对比了两种优势分配策略:

硬优势估计:显式区分轨迹中的共享/独立部分,分别计算优势值:

独立路径使用归一化奖励Ri计算优势:

图片

共享路径的优势值取包含该片段的所有d条轨迹优势值均值。

图片

软优势估计:基于GRPO算法,通过动态调整GRPO中的重要性采样比率,隐式地区分共享与独立路径的优势信号:

图片

实验结果表明,软优势估计在ARPO训练中能稳定获得更高奖励,故将其设为默认优势估计方法。

分层奖励设计:奖励函数综合评估答案正确性、格式规范性和多工具协作性(如搜索、Python),对同时满足三项条件的模型给予额外奖励rM。总奖励R定义为:

图片

图片

数学与知识密集型推理任务结果如上表所示。ARPO算法优于所有样本级强化学习算法,显著确立了其技术优势。此外,论文进一步总结出以下关键发现:

提示方法局限:工具集成提示法(TIR)效果不佳,表明仅依赖提示工程不足以引导大模型掌握最优工具使用策略,还可能干扰其固有推理能力。

样本级RL缺陷:经典样本级RL在多轮工具调用场景表现欠佳,其难以在LLM中激发步骤级工具使用行为学习。

ARPO优势:在10个数据集上平均提升4%准确率,且在Qwen/Llama等不同骨干模型上均表现优异,展现强大适应性。

图片

ARPO在深度搜索任务中展现出显著优势:仅用1K样本训练,Qwen3-8B/14B便在多个基准上显著优于GPT-4o和DeepSeek-R1等最先进的基线模型,突显其在工具协同推理能力上的高效性

其核心在于通过平衡全局和步骤级采样策略,促进了LLM在高熵工具使用步骤中的多样化行为探索,对于需要频繁调用工具的深度搜索场景至关重要。

最新文章
兴银理财叶予璋:战略资产配置是科学投资的重要成分,股债金配置仍是当前市场优选项_网易新闻
2025年9月22日,兴证全球基金、兴银理财、复旦大学管理学院携手举办的“投资·向善”复旦管院·兴动ESG大讲堂暨高校基金会慈善资产管理研讨会圆满落幕。兴银理财创新业务部总经理叶予璋在“多资产投资机遇展望”圆桌交流中为大家解析资产配
留学意大利,这份指南要收好(留学服务站)_腾讯新闻
王 威   米兰理工大学校园景色。资料图片   感受罗马的晨光,乘坐威尼斯的小船,倾听佛罗伦萨的钟声……近年来,越来越多中国学子选择前往意大利,追寻学术理想,体验别样文化。如果正计划前往意大利,或已在意大利准备开启新生活,这
山东推出18条硬招,全面打造碳足迹管理体系|低碳|行动方案|减碳|降碳_网易新闻
碳足迹是指个体、组织、国家、产品等特定对象,在一定时间内直接或间接导致的温室气体排放量,以二氧化碳当量表示,是衡量绿色低碳水平的重要指标。其中,产品碳足迹反映了产品全生命周期各阶段温室气体排放量。“比如,我们今天现场的瓶装
中国民生银行哈尔滨分行:强化系统安全 平稳服务亚冬|运维|网络安全|终端安全_网易新闻
为确保春节和哈尔滨亚冬会期间的运维服务质效,中国民生银行哈尔滨分行全面开展自查,持续改善网络安全、数据安全、运维管理等方面的能力,实现金融服务的安全、稳定。一是对超过年限的设备进行设备运行评估,本着降本增效原则,对设备运维
聚焦前沿·共融创新丨ICCNEA 2025国际会议在西安成功举办|教学|学术|西安工业大学|博士_网易新闻
9月20日,第八届计算机网络、电子与自动化国际会议(ICCNEA 2025)暨第六届未来网络产业会议在西安隆重召开。本次会议由新型网络与检测控制国家地方联合工程实验室发起,西安工商学院与西安工业大学与联合主办,西安工商学院信息工程学院、
生肖猪年茅台酒瓶回收及礼盒回收目前价值一览
猪年茅台酒瓶回收及礼盒回收目前价值一览 虎年茅台酒行情一览兔2800-3500元虎3000-3800元牛3200-3900元鼠3300-3900元狗3400-3950元鸡3500-4000元猪3500-4000元猴6000-7000元马23000-30000元羊30000-40000元15年茅台酒瓶回收、30年茅台酒瓶
独一无二的双屏体验——全球首款翻盖双屏安卓掌机 AYANEO Pocket DS 正式发布_腾讯新闻
2025 年 8 月 18 日,AYANEO 正式发布了备受玩家期待的全球首款翻盖双屏安卓掌机新品 AYANEO Pocket DS,这是一款将经典与现代完美融合的掌机,也是专为复古游戏爱好者与极客玩家打造的掌上神器。全球首款翻盖双屏安卓掌机 AYANEO Pocket D
铂期货连续两日涨停_腾讯新闻
国内商品期市收盘多数上涨,贵金属涨幅居前,铂主力合约连续第二个交易日涨停,钯、碳酸锂涨超5%,沪银涨超4%,沪镍、PVC涨超3%,沪金、烧碱、PTA、燃料油涨超2%。乙二醇跌超3%。(中新经纬APP)
宜兴成龙茅台酒瓶回收价查看一览
带你了解贵州茅台十二生肖酒生肖茅台酒(生肖茅台酒)一般指贵州茅台十二生肖酒贵州茅台十二生肖酒是贵州茅台酒股份有限公司与生肖设计巨擘黄永玉老先生共同打造的一款茅台主品牌酒。产品延请艺术大师黄永玉在茅台酒瓶上,绘制出十二生肖图
隧道装上“智慧大脑”!山西高速数字化转型跑出“联网监测”加速度|高速公路|通道_网易新闻
在山西,一条条穿山越岭的高速公路隧道,正悄然变“聪明”。过去,隧道安全依赖人工监控与分散系统,响应慢、盲区多;如今,借助全省联网运行的智慧监测体系,隧道实现了从“被动应对”到“主动治理”的跨越式升级。这不仅是技术的革新,更
相关文章
推荐文章
发表评论
0评