WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

要約

大規模言語モデル (LLM) は、特に Web ベースのタスクにおいて自律エージェントとして顕著な可能性を示しています。
ただし、既存の LLM Web エージェントは高価な独自の LLM API に大きく依存しているのに対し、オープン LLM には必要な意思決定機能が欠けています。
このペーパーでは、オープン LLM を使用して高性能 Web エージェントをトレーニングするように設計された、自己進化するオンライン カリキュラム強化学習フレームワークである WebRL について紹介します。
WebRL は、トレーニング タスクの不足、フィードバック信号の希薄さ、オンライン学習におけるポリシー配布のドリフトなど、LLM Web エージェントを構築する際の 3 つの主要な課題に対処します。
具体的には、WebRL には、1) 失敗した試行から新しいタスクを生成する自己進化型カリキュラム、2) 堅牢な結果教師あり報酬モデル (ORM)、および 3) 一貫した改善を保証するための適応強化学習戦略が組み込まれています。
WebRL を適用して、オープン Llama-3.1 および GLM-4 モデルを熟練した Web エージェントに変換します。
WebArena-Lite では、WebRL により、Llama-3.1-8B の成功率が 4.8% から 42.4% に、GLM-4-9B の成功率が 6.1% から 43% に向上しました。
これらのオープン モデルは、GPT-4-Turbo (17.6%) および GPT-4o (13.9%) のパフォーマンスを大幅に上回り、オープン LLM でトレーニングされた以前の最先端の Web エージェント (AutoWebGLM、18.2%) を上回ります。
私たちの調査結果は、オープンな LLM ベース Web エージェントと独自の LLM ベース Web エージェント間のギャップを埋める WebRL の有効性を実証し、よりアクセスしやすく強力な自律型 Web インタラクション システムへの道を切り開きます。

要約(オリジナル)

Large language models (LLMs) have shown remarkable potential as autonomous agents, particularly in web-based tasks. However, existing LLM web agents heavily rely on expensive proprietary LLM APIs, while open LLMs lack the necessary decision-making capabilities. This paper introduces WebRL, a self-evolving online curriculum reinforcement learning framework designed to train high-performance web agents using open LLMs. WebRL addresses three key challenges in building LLM web agents, including the scarcity of training tasks, sparse feedback signals, and policy distribution drift in online learning. Specifically, WebRL incorporates 1) a self-evolving curriculum that generates new tasks from unsuccessful attempts, 2) a robust outcome-supervised reward model (ORM), and 3) adaptive reinforcement learning strategies to ensure consistent improvements. We apply WebRL to transform open Llama-3.1 and GLM-4 models into proficient web agents. On WebArena-Lite, WebRL improves the success rate of Llama-3.1-8B from 4.8% to 42.4%, and from 6.1% to 43% for GLM-4-9B. These open models significantly surpass the performance of GPT-4-Turbo (17.6%) and GPT-4o (13.9%) and outperform previous state-of-the-art web agents trained on open LLMs (AutoWebGLM, 18.2%). Our findings demonstrate WebRL’s effectiveness in bridging the gap between open and proprietary LLM-based web agents, paving the way for more accessible and powerful autonomous web interaction systems.

arxiv情報

著者 Zehan Qi,Xiao Liu,Iat Long Iong,Hanyu Lai,Xueqiao Sun,Xinyue Yang,Jiadai Sun,Yu Yang,Shuntian Yao,Tianjie Zhang,Wei Xu,Jie Tang,Yuxiao Dong
発行日 2024-11-04 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク