WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

要約

大規模言語モデル(LLM)は、特にウェブベースのタスクにおいて、自律型エージェントとしての顕著な可能性を示している。しかし、既存のLLMウェブエージェントは、高価なプロプライエタリLLM APIに大きく依存しており、オープンLLMには必要な意思決定機能が欠けています。本論文では、オープンなLLMを使用して高性能なウェブエージェントを訓練するために設計された、自己進化型オンラインカリキュラム強化学習フレームワークであるWebRLを紹介します。WebRLは、LLMウェブエージェントを構築する上での3つの重要な課題に対処しています。その3つとは、オンライン学習におけるトレーニングタスクの希少性、フィードバック信号の疎らさ、ポリシー分布のドリフトです。具体的には、WebRLは1)失敗した課題から新しい課題を生成する自己学習カリキュラム、2)頑健な結果監視報酬モデル(ORM)、3)一貫した改善を保証する適応的強化学習戦略を組み込んでいます。WebRLを応用して、Llama-3.1とGLM-4のオープンモデルを熟練ウェブエージェントに変換します。WebArena-Lite上で、WebRLはLlama-3.1-8Bの成功率を4.8%から42.4%に、GLM-4-9Bの成功率を6.1%から43%に向上させました。これらのオープンモデルはGPT-4-Turbo(17.6%)とGPT-4o(13.9%)のパフォーマンスを大幅に上回り、オープンLLMで学習された過去の最新ウェブエージェント(AutoWebGLM, 18.2%)を凌駕します。この結果は、WebRLがオープンLLMベースのウェブエージェントとプロプライエタリLLMベースのウェブエージェントの間のギャップを埋めるのに効果的であることを示しており、よりアクセスしやすく強力な自律的ウェブ対話システムへの道を開くものです。

要約(オリジナル)

Large language models (LLMs) have shown remarkable potential as autonomous agents, particularly in web-based tasks. However, existing LLM web agents heavily rely on expensive proprietary LLM APIs, while open LLMs lack the necessary decision-making capabilities. This paper introduces WebRL, a self-evolving online curriculum reinforcement learning framework designed to train high-performance web agents using open LLMs. WebRL addresses three key challenges in building LLM web agents, including the scarcity of training tasks, sparse feedback signals, and policy distribution drift in online learning. Specifically, WebRL incorporates 1) a self-evolving curriculum that generates new tasks from unsuccessful attempts, 2) a robust outcome-supervised reward model (ORM), and 3) adaptive reinforcement learning strategies to ensure consistent improvements. We apply WebRL to transform open Llama-3.1 and GLM-4 models into proficient web agents. On WebArena-Lite, WebRL improves the success rate of Llama-3.1-8B from 4.8% to 42.4%, and from 6.1% to 43% for GLM-4-9B. These open models significantly surpass the performance of GPT-4-Turbo (17.6%) and GPT-4o (13.9%) and outperform previous state-of-the-art web agents trained on open LLMs (AutoWebGLM, 18.2%). Our findings demonstrate WebRL’s effectiveness in bridging the gap between open and proprietary LLM-based web agents, paving the way for more accessible and powerful autonomous web interaction systems.

arxiv情報

著者 Zehan Qi,Xiao Liu,Iat Long Iong,Hanyu Lai,Xueqiao Sun,Wenyi Zhao,Yu Yang,Xinyue Yang,Jiadai Sun,Shuntian Yao,Tianjie Zhang,Wei Xu,Jie Tang,Yuxiao Dong
発行日 2024-12-03 16:37:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク