WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

要約

大規模な言語モデル(LLM)は、特にWebベースのタスクで、自律剤として顕著な可能性を示しています。
ただし、既存のLLM Webエージェントは高価な独自のLLM APIに大きく依存していますが、オープンLLMは必要な意思決定機能がありません。
このペーパーでは、Open LLMSを使用して高性能Webエージェントをトレーニングするように設計された自己進化のオンラインカリキュラム強化学習フレームワークであるWebrlを紹介します。
Webrlは、トレーニングタスクの希少性、スパースフィードバックシグナル、オンライン学習におけるポリシー分布ドリフトなど、LLM Webエージェントの構築における3つの重要な課題に対処しています。
具体的には、WeBRLには、1)失敗した試みから新しいタスクを生成する自己進化カリキュラム、2)一貫した改善を確保するための堅牢な結果監視報酬モデル(ORM)、および3)適応強化学習戦略を組み込みます。
WEBRLを適用して、Open Llama-3.1およびGLM-4モデルを熟練したWebエージェントに変換します。
Webarena-Liteでは、WebrlはLlama-3.1-8Bの成功率を4.8%から42.4%に改善し、GLM-4-9Bで6.1%から43%に改善します。
これらのオープンモデルは、GPT-4ターボ(17.6%)とGPT-4O(13.9%)の性能を大幅に上回り、オープンLLMでトレーニングした以前の最先端のWebエージェント(AutoWebglm、18.2%)を上回ります。
私たちの調査結果は、オープンと独自のLLMベースのWebエージェントの間のギャップを埋める際のWebrlの有効性を示しており、よりアクセスしやすく強力な自律的なWebインタラクションシステムへの道を開いています。

要約(オリジナル)

Large language models (LLMs) have shown remarkable potential as autonomous agents, particularly in web-based tasks. However, existing LLM web agents heavily rely on expensive proprietary LLM APIs, while open LLMs lack the necessary decision-making capabilities. This paper introduces WebRL, a self-evolving online curriculum reinforcement learning framework designed to train high-performance web agents using open LLMs. WebRL addresses three key challenges in building LLM web agents, including the scarcity of training tasks, sparse feedback signals, and policy distribution drift in online learning. Specifically, WebRL incorporates 1) a self-evolving curriculum that generates new tasks from unsuccessful attempts, 2) a robust outcome-supervised reward model (ORM), and 3) adaptive reinforcement learning strategies to ensure consistent improvements. We apply WebRL to transform open Llama-3.1 and GLM-4 models into proficient web agents. On WebArena-Lite, WebRL improves the success rate of Llama-3.1-8B from 4.8% to 42.4%, and from 6.1% to 43% for GLM-4-9B. These open models significantly surpass the performance of GPT-4-Turbo (17.6%) and GPT-4o (13.9%) and outperform previous state-of-the-art web agents trained on open LLMs (AutoWebGLM, 18.2%). Our findings demonstrate WebRL’s effectiveness in bridging the gap between open and proprietary LLM-based web agents, paving the way for more accessible and powerful autonomous web interaction systems.

arxiv情報

著者 Zehan Qi,Xiao Liu,Iat Long Iong,Hanyu Lai,Xueqiao Sun,Wenyi Zhao,Yu Yang,Xinyue Yang,Jiadai Sun,Shuntian Yao,Tianjie Zhang,Wei Xu,Jie Tang,Yuxiao Dong
発行日 2025-01-27 11:56:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク