分享好友 最新动态首页 最新动态分类 切换频道
Hugging Face周榜第一!人大高瓴与快手联合提出ARPO强化学习算法,专为Agent而生
2025-08-26 12:02

智猩猩GenAI整理

编辑:六一

多轮智能体强化学习一直备受学术界与工业界的关注,直接使用GRPO或DAPO这样的样本级强化学习算法来训练搜索、代码等智能体已不能满足需求,因为它们无法充分考虑智能体在推理过程中多轮次交互的独特特性。

为此,人大高瓴与快手团队联合提出了ARPO强化学习算法(Agentic Reinforced Policy Optimization),专为训练多轮智能体设计。ARPO创新性地引入基于熵的自适应rollout机制,动态调节全局和局部采样策略,重点增强高不确定性节点的探索能力。同时,通过优势归因估计帮助LLM内化工具交互中的策略差异。

实验显示,在计算推理、知识推理及深度搜索领域的13项基准测试中,ARPO算法仅需一半的工具使用预算便优于GRPO等传统的样本级强化学习算法。为智能体训练提供了突破性解决方案。

图片
图片

图片

论文通过熵量化研究发现:当大模型与外部工具环境交互时,会出现高熵波动现象,这意味着工具调用为推理带来了巨大的不确定性。受此启发,论文提出ARPO算法,旨在通过熵驱动大语言模型探索分步工具使用行为,具体细节如下:

图片

1. 基于熵的自适应rollout

在rollout阶段,ARPO同时采用样本级采样和基于熵的局部采样,以覆盖更全面的采样空间。该机制的设计包含以下四个核心步骤:

rollout初始化:设置全局rollout规模M,LLM基于输入问题q通过样本级采样生成N条轨迹,保留M-N条轨迹的采样预算用于局部采样。计算每条轨迹第一个token的熵值,形成初始熵矩阵Hinitial ∈ R1×k

熵变监控:在每次工具调用后,允许模型在拼接工具返回结果后继续生成k个token。对于工具调用步骤t,计算步骤级熵矩阵Ht∈ R1×k,通过ΔHt=Normalize(Ht-Hinitial)量化相对于初始状态的归一化熵变。

图片

基于熵的自适应分支:为引导模型沿熵变有益的工具使用路径进行自适应探索,工具调用步骤t的局部采样概率定义如下:

图片

其中α表示基础采样概率,β为稳定熵值。如图4(a)所示,模型通过图片值决定分支行为:当图片超过预设阈值τ时,执行Branch(Z)操作,从当前节点分支出Z条局部推理路径;否则延续当前轨迹。该机制使模型能够自适应地将探索资源分配到推理空间中熵值上升的区域,这些区域往往蕴含着更高概率的信息增益。

终止该过程持续迭代,直到分叉路径数达到预算上限M−N(停止分支并完成采样)或所有路径提前终止(补充采样至预算要求)为止。

ARPO通过这种高效rollout机制实现了不确定性感知探索,使大语言模型能有效识别步骤级工具调用行为,并将计算复杂度降至O(n log n)~O(n²)区间。

2. 优势归因估计

对于自适应rollout产生的共享推理路径和分支推理路径(图4),论文对比了两种优势分配策略:

硬优势估计:显式区分轨迹中的共享/独立部分,分别计算优势值:

独立路径使用归一化奖励Ri计算优势:

图片

共享路径的优势值取包含该片段的所有d条轨迹优势值均值。

图片

软优势估计:基于GRPO算法,通过动态调整GRPO中的重要性采样比率,隐式地区分共享与独立路径的优势信号:

图片

实验结果表明,软优势估计在ARPO训练中能稳定获得更高奖励,故将其设为默认优势估计方法。

分层奖励设计:奖励函数综合评估答案正确性、格式规范性和多工具协作性(如搜索、Python),对同时满足三项条件的模型给予额外奖励rM。总奖励R定义为:

图片

图片

数学与知识密集型推理任务结果如上表所示。ARPO算法优于所有样本级强化学习算法,显著确立了其技术优势。此外,论文进一步总结出以下关键发现:

提示方法局限:工具集成提示法(TIR)效果不佳,表明仅依赖提示工程不足以引导大模型掌握最优工具使用策略,还可能干扰其固有推理能力。

样本级RL缺陷:经典样本级RL在多轮工具调用场景表现欠佳,其难以在LLM中激发步骤级工具使用行为学习。

ARPO优势:在10个数据集上平均提升4%准确率,且在Qwen/Llama等不同骨干模型上均表现优异,展现强大适应性。

图片

ARPO在深度搜索任务中展现出显著优势:仅用1K样本训练,Qwen3-8B/14B便在多个基准上显著优于GPT-4o和DeepSeek-R1等最先进的基线模型,突显其在工具协同推理能力上的高效性

其核心在于通过平衡全局和步骤级采样策略,促进了LLM在高熵工具使用步骤中的多样化行为探索,对于需要频繁调用工具的深度搜索场景至关重要。

最新文章
通山:战“高”温 迎“烤”验 咸九高速项目建设进入快车道
 本网讯(全媒体记者 王贤波  实习记者  郭微)近日,我县最高气温可达37℃,路测的地表温度最高达40℃以上。在高温炎热下,在南林桥镇咸九高速一标段项目建设现场,省交投集团在抓好防暑降温的同时,抢抓工程进度,力争高质量完成暑期
体育彩票7星彩号码“无厘头” 引逗彩民趣多多
城市晚报讯 数字7星彩玩的不仅是技巧,还得看你的胆量。拿最近7星彩在13097期中开出的“4784787”这组号码来讲,就让许多彩民朋友们望而却步,不敢与其有所染指。就是因为当期开出的这组号码中文谐音为“死去吧死去吧去”,并且这组连起来
佛山市进一步推进知识产权公共服务系列签约暨第二届佛山市专利价值度榜单发布活动成功举办
砥砺奋进五载路,铿锵迈步新征程。10月26日,“佛山市进一步推进知识产权公共服务系列签约暨第二届佛山市专利价值度榜单发布活动”成功举办。广东省市场监督管理局二级巡视员傅铁笔,广东省知识产权保护中心二级巡视员黄光华,广东省市场监
《蛮好的人生》孙俪、童蕾二搭,地位大不同,才知何谓风水轮流转
孙俪、董子健等人主演的都市剧《蛮好的人生》正在热播中,更新4天,收视率迅速飙升,最高收视率已经破了3,涨势很猛,关于剧情和演员的讨论也居高不下。整部剧以保险行业为背景,围绕职场斗争、婚姻背叛与人性救赎展开。演员也全员熟人,不
射击体验、航模表演……晋源区第六实验小学这场军事研学活动超燃!
3月29日,太原市晋源区第六实验小学五年级240余名师生,来到“人民兵工第一校——中北大学”参加军事研学活动,用一天的时间,追溯了解“红色兵工”的魅力所在。活动前,副校长李建英对本次研学活动进行了发言并预祝本次活动取得圆满成功。
意大利更青睐中国中小企业赴意投资
2025年度国际科技园区协会(IASP)第42届世界大会于9月16日至19日在北京举行,来自海外新兴国家市场合作伙伴、知名高校、科研机构及创新型企业代表参会。意大利数字工厂首席、SPICI S.r.l.创始人兼总裁Vincenzo Lipardi表示,全球创新界加
飒!中国黑科技,震惊上百名哈佛硕士!
140名来自美国哈佛大学的硕士,被当下巨火的iTour AR翻译眼镜彻底震惊,纷纷表示:"OH MY GOD!"这是一款会说话的AR翻译眼镜,眼镜识别翻译对方语言,手表翻译播报本方语言,轻松实现跨语言交流五一假期,哈佛大学中国行活动在北京盛大举行
汇聚巾帼力量——沧州市举办女企业家沙龙会活动
“三八国际妇女节”来临之际,一场名为“汇聚巾帼力量,共促经济发展”的主题沙龙会,由沧州市企业家直通车办公室举办。沧州市工商联副主席、市民营企业直通车服务中心主任刘泽胜,市直通办各服务中心负责人,以及13名优秀女企业家代表,共
湖南卫视开播!16集悬疑剧来袭,阵容雄厚,就连郝蕾都请来了
文案|一十三编辑|苏打水眼下的观众对什么类型的国产剧最感兴趣?有的人会选古偶剧,还有人会选年代剧。但是曾经,悬疑剧才是观众的首选。《隐秘的角落》《》《》都是有口皆碑的爆款。可今年的《》《看不见影子的少年》,却远远没能达到观众
盒马“0抗生素”鸡蛋被检出农兽药残留超标,为何引发如此轩然大波?
近日,山东省市场监督管理局发布的一则食品安全抽检情况通告,将盒马鲜生潍坊门店推上了风口浪尖——其所售保洁无抗鲜鸡蛋被检出农兽药残留超标。这一事件不仅引发了公众的广泛关注,更在网络上掀起了轩然大波。一枚小小的无抗鸡蛋,为何能
相关文章
推荐文章
发表评论
0评