分享好友 最新动态首页 最新动态分类 切换频道
Hugging Face周榜第一!人大高瓴与快手联合提出ARPO强化学习算法,专为Agent而生
2025-08-26 12:02

智猩猩GenAI整理

编辑:六一

多轮智能体强化学习一直备受学术界与工业界的关注,直接使用GRPO或DAPO这样的样本级强化学习算法来训练搜索、代码等智能体已不能满足需求,因为它们无法充分考虑智能体在推理过程中多轮次交互的独特特性。

为此,人大高瓴与快手团队联合提出了ARPO强化学习算法(Agentic Reinforced Policy Optimization),专为训练多轮智能体设计。ARPO创新性地引入基于熵的自适应rollout机制,动态调节全局和局部采样策略,重点增强高不确定性节点的探索能力。同时,通过优势归因估计帮助LLM内化工具交互中的策略差异。

实验显示,在计算推理、知识推理及深度搜索领域的13项基准测试中,ARPO算法仅需一半的工具使用预算便优于GRPO等传统的样本级强化学习算法。为智能体训练提供了突破性解决方案。

图片
图片

图片

论文通过熵量化研究发现:当大模型与外部工具环境交互时,会出现高熵波动现象,这意味着工具调用为推理带来了巨大的不确定性。受此启发,论文提出ARPO算法,旨在通过熵驱动大语言模型探索分步工具使用行为,具体细节如下:

图片

1. 基于熵的自适应rollout

在rollout阶段,ARPO同时采用样本级采样和基于熵的局部采样,以覆盖更全面的采样空间。该机制的设计包含以下四个核心步骤:

rollout初始化:设置全局rollout规模M,LLM基于输入问题q通过样本级采样生成N条轨迹,保留M-N条轨迹的采样预算用于局部采样。计算每条轨迹第一个token的熵值,形成初始熵矩阵Hinitial ∈ R1×k

熵变监控:在每次工具调用后,允许模型在拼接工具返回结果后继续生成k个token。对于工具调用步骤t,计算步骤级熵矩阵Ht∈ R1×k,通过ΔHt=Normalize(Ht-Hinitial)量化相对于初始状态的归一化熵变。

图片

基于熵的自适应分支:为引导模型沿熵变有益的工具使用路径进行自适应探索,工具调用步骤t的局部采样概率定义如下:

图片

其中α表示基础采样概率,β为稳定熵值。如图4(a)所示,模型通过图片值决定分支行为:当图片超过预设阈值τ时,执行Branch(Z)操作,从当前节点分支出Z条局部推理路径;否则延续当前轨迹。该机制使模型能够自适应地将探索资源分配到推理空间中熵值上升的区域,这些区域往往蕴含着更高概率的信息增益。

终止该过程持续迭代,直到分叉路径数达到预算上限M−N(停止分支并完成采样)或所有路径提前终止(补充采样至预算要求)为止。

ARPO通过这种高效rollout机制实现了不确定性感知探索,使大语言模型能有效识别步骤级工具调用行为,并将计算复杂度降至O(n log n)~O(n²)区间。

2. 优势归因估计

对于自适应rollout产生的共享推理路径和分支推理路径(图4),论文对比了两种优势分配策略:

硬优势估计:显式区分轨迹中的共享/独立部分,分别计算优势值:

独立路径使用归一化奖励Ri计算优势:

图片

共享路径的优势值取包含该片段的所有d条轨迹优势值均值。

图片

软优势估计:基于GRPO算法,通过动态调整GRPO中的重要性采样比率,隐式地区分共享与独立路径的优势信号:

图片

实验结果表明,软优势估计在ARPO训练中能稳定获得更高奖励,故将其设为默认优势估计方法。

分层奖励设计:奖励函数综合评估答案正确性、格式规范性和多工具协作性(如搜索、Python),对同时满足三项条件的模型给予额外奖励rM。总奖励R定义为:

图片

图片

数学与知识密集型推理任务结果如上表所示。ARPO算法优于所有样本级强化学习算法,显著确立了其技术优势。此外,论文进一步总结出以下关键发现:

提示方法局限:工具集成提示法(TIR)效果不佳,表明仅依赖提示工程不足以引导大模型掌握最优工具使用策略,还可能干扰其固有推理能力。

样本级RL缺陷:经典样本级RL在多轮工具调用场景表现欠佳,其难以在LLM中激发步骤级工具使用行为学习。

ARPO优势:在10个数据集上平均提升4%准确率,且在Qwen/Llama等不同骨干模型上均表现优异,展现强大适应性。

图片

ARPO在深度搜索任务中展现出显著优势:仅用1K样本训练,Qwen3-8B/14B便在多个基准上显著优于GPT-4o和DeepSeek-R1等最先进的基线模型,突显其在工具协同推理能力上的高效性

其核心在于通过平衡全局和步骤级采样策略,促进了LLM在高熵工具使用步骤中的多样化行为探索,对于需要频繁调用工具的深度搜索场景至关重要。

最新文章
东荣伺服故障报警代码AL14维修_志趣网
北京慧博时代科技有限公司上海分公司是一家专业从事芯片级维修CPU主板、伺服驱动、工控机、控制器、变频器、PLC、NCU、人机界面、电源模块、软启动器等。我们慧博人以技术服务说话,多做事,以实力说话,让所有了解我们的人都信赖我们,因
蜜雪冰城,被通报!一产品大肠菌群超标70%! | 6月12日日报
一、明星品牌1、霸王茶姬北京校园首店入驻清华大学36氪获悉,6月11日,霸王茶姬宣布清华大学照澜院店正式开业,这是霸王茶姬北京地区首家校园店。开店首日累计销售超2200杯,成为当日其全国门店GMV第一。据了解,霸王茶姬目前已在上海交通
10月最新数据出炉,深圳楼市新政效果超预期_腾讯新闻
回顾9月末以来,中央各项提振经济的一揽子增量政策相继推出。各项政策对房地产市场利好颇丰,降准降息降房贷……随即,全国各大一线城市启动楼市松绑政策相继出炉。深圳局部区域取消限购。放宽非深户购房限制,可无条件在“外围区域”购房1
科技巨头借表外融资加码AI基建
科技巨头正通过特殊目的实体(SPV)和合资企业进行表外融资,以筹集人工智能基础设施所需资金,同时避免增加资产负债表负担。Meta已为数据中心建设锁定约600亿美元资金,其中300亿美元通过摩根士丹利构建的表外交易完成,由与Blue Owl关联
多地发文:招人 只要退休的_com_sohu_https
针对热门内容“"多地发文:招人 只要退休的"”,小编为你搜集了相关文章,快来看看吧。1、多地发文:招人,只要退休的凡符合资格条件自愿报名参加银龄讲学计划的人员,对照《甘肃省银龄讲学计划2025-2026学年招募讲学教师岗位需求表》提供
【相约体彩】2025年“相约体彩 北京看开奖”活动第四批观摩团人员名单公示
为持续提升体育彩票责任公益公信品牌形象,贯彻“公开、公平、公正”的原则,让社会公众现场了解体育彩票开奖全流程,省中心于2025年6月启动“相约体彩 北京看开奖”现场观摩活动,现将由湖南省2025年青春梦想家营销活动中得的参与者及2025
金店的玉器是真是假?质量可靠吗?值钱吗?能买吗?-翡翠原石
金店打折销售玉器是真实存在的这是金店促销活动的一种办法吸引顾客光顾购买玉器产品。金店打折销售玉器的目的是为了增进产品的销售量通过减低价格吸引更多的顾客。金店打折销售玉器可以吸引更多的顾客。玉器作为一种古老而珍贵的装饰品和收
《AI智能新闻稿撰写助手:一键生成专业指令,轻松打造高效传稿》-2024ai知识
《AI智能新闻稿撰写助手:一键生成专业指令,轻松打造高效传稿》# 《智能新闻稿撰写助手:一键生成专业指令,轻松打造高效传稿》随着科技的发展,人工智能()在各个领域的应用日益广泛。在新闻行业,智能新闻稿撰写助手应运而生,为企业和
“扶贫攻坚 健康同行——肝炎健康促进与防治项目”一期结束 ...
1月17日召开的2019年全国基层卫生健康工作会明确了今年基层卫生工作的9个重点。  一是推进县域医共体建设。每个县结合实际...
房产契税标准降低:三部门联合发布新税政策力促房产市场平稳发展_腾讯新闻
财政部、税务总局、住房城乡建设部2024年11月13日联合发布新税收政策,力促房地产市场平稳健康发展。财政部、税务总局、住房城乡建设部联合发布了《关于促进房地产市场平稳健康发展有关税收政策的公告》(2024年第16号),旨在通过调整住房
相关文章
推荐文章
发表评论
0评