要約
Web ブラウザなどの複雑な環境で効果的に移動してアクションを実行できるエージェントとしてモデルをトレーニングすることは、トレーニング データが不足しているため、通常は困難でした。
最近、大規模言語モデル (LLM) は、プロンプトとしての自然言語命令によって純粋にガイドされ、ゼロショットまたは少数ショットの方法でエージェントとして新しい環境をナビゲートする機能を実証しました。
最近の研究では、LLM が自己改善、つまりモデル自体によって生成されたデータの微調整を通じて、基本パフォーマンスを超える能力を備えていることも実証されています。
この研究では、WebArena ベンチマークを使用して、複雑な環境における長期タスクのエージェントとして LLM がどの程度パフォーマンスを自己改善できるかを調査します。
WebArena では、指定された目的を達成するために、エージェントは Web ページ上で自律的に移動してアクションを実行する必要があります。
私たちは 3 つの異なる合成トレーニング データ混合物での微調整を検討し、自己改善手順を通じて WebArena ベンチマークで基本モデルと比較してタスク完了率の 31% 向上を達成しました。
さらに、現在自己改善を測定するために使用されている単純な集計レベルのベンチマーク スコアよりも、微調整されたエージェント モデルのパフォーマンス、堅牢性、能力、軌道の品質を評価するための新しい評価指標にも貢献しています。
要約(オリジナル)
Training models to act as agents that can effectively navigate and perform actions in a complex environment, such as a web browser, has typically been challenging due to lack of training data. Large language models (LLMs) have recently demonstrated some capability to navigate novel environments as agents in a zero-shot or few-shot fashion, purely guided by natural language instructions as prompts. Recent research has also demonstrated LLMs have the capability to exceed their base performance through self-improvement, i.e. fine-tuning on data generated by the model itself. In this work, we explore the extent to which LLMs can self-improve their performance as agents in long-horizon tasks in a complex environment using the WebArena benchmark. In WebArena, an agent must autonomously navigate and perform actions on web pages to achieve a specified objective. We explore fine-tuning on three distinct synthetic training data mixtures and achieve a 31\% improvement in task completion rate over the base model on the WebArena benchmark through a self-improvement procedure. We additionally contribute novel evaluation metrics for assessing the performance, robustness, capabilities, and quality of trajectories of our fine-tuned agent models to a greater degree than simple, aggregate-level benchmark scores currently used to measure self-improvement.
arxiv情報
著者 | Ajay Patel,Markus Hofmarcher,Claudiu Leoveanu-Condrei,Marius-Constantin Dinu,Chris Callison-Burch,Sepp Hochreiter |
発行日 | 2024-05-30 17:52:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google