要約
Large Language Model (LLM) エージェントは、ますます複雑になる Web ベースのタスクを処理できるように急速に改良されています。
これらのエージェントのほとんどは、GPT-4 などの汎用の独自モデルに依存しており、計画能力を向上させるためにより良いプロンプトを設計することに重点を置いています。
ただし、汎用 LLM は、HTML などの特殊な Web コンテキストを理解するように特別に訓練されていないため、長期的な計画に苦労することがよくあります。
私たちは、60 億トークンに相当する 250 以上のドメインから収集された実稼働規模のワークフロー データを使用して、オープンソース LLM を微調整する代替アプローチを検討します。
このシンプルかつ効果的なアプローチは、既存のベンチマークでプロンプト ベースのエージェントに比べて大幅な向上を示しています。ScribeAgent は、Mind2Web 上で最先端の直接生成パフォーマンスを実現し、以前の最高のテキストのみの Web エージェントと比べてタスクの成功率を 14.1% 向上させています。
Webアリーナで。
さらに、さまざまな微調整設計の選択について詳細なアブレーション研究を実行し、LLM の選択、トレーニング レシピ、コンテキスト ウィンドウの最適化、およびデータセット サイズの影響についての洞察を提供します。
要約(オリジナル)
Large Language Model (LLM) agents are rapidly improving to handle increasingly complex web-based tasks. Most of these agents rely on general-purpose, proprietary models like GPT-4 and focus on designing better prompts to improve their planning abilities. However, general-purpose LLMs are not specifically trained to understand specialized web contexts such as HTML, and they often struggle with long-horizon planning. We explore an alternative approach that fine-tunes open-source LLMs using production-scale workflow data collected from over 250 domains corresponding to 6 billion tokens. This simple yet effective approach shows substantial gains over prompting-based agents on existing benchmarks — ScribeAgent achieves state-of-the-art direct generation performance on Mind2Web and improves the task success rate by 14.1% over the previous best text-only web agents on WebArena. We further perform detailed ablation studies on various fine-tuning design choices and provide insights into LLM selection, training recipes, context window optimization, and effect of dataset sizes.
arxiv情報
著者 | Junhong Shen,Atishay Jain,Zedian Xiao,Ishan Amlekar,Mouad Hadji,Aaron Podolny,Ameet Talwalkar |
発行日 | 2024-11-22 15:26:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google