要約
マルチモーダル大規模言語モデル (MLLM) を活用した最先端のマルチモーダル Web エージェントは、ユーザー指示を処理し、グラフィカル ユーザー インターフェイス (GUI) と対話することで、多くの Web タスクを自律的に実行できます。
Web エージェントを構築するための現在の戦略は、(i) 基礎となる MLLM の汎用性とプロンプトによる操作可能性、および (ii) Web 関連タスクにおける MLLM の大規模な微調整に依存しています。
ただし、Web エージェントは、目に見えない Web サイトやドメインでのタスクを自動化するのに依然として苦労しており、企業固有の独自のプラットフォームへの適用が制限されています。
大規模な事前トレーニングと微調整による一般化を超えて、人間のデモンストレーションを使用して少数ショットの適応性を実現するエージェントを構築することを提案します。
私たちは、プロプライエタリなマルチモーダル Web エージェントとオープンウェイトの両方のマルチモーダル Web エージェントが、人間による少数のデモンストレーション (最大 2 つ) を使用して新しい Web サイトやドメインに適応できるようにする AdaptAgent フレームワークを導入します。
Mind2Web と VisualWebArena という 2 つの人気のあるベンチマークに関する私たちの実験では、インコンテキスト デモンストレーション (独自モデルの場合) またはメタ適応デモンストレーション (メタ学習されたオープンウェイト モデルの場合) を使用すると、タスクの成功率が 3.36% から 7.21% 向上することがわかりました。
これは、21.03% から 65.75% の相対的な増加に相当します。
さらに、追加の分析では、(a) テキストのみのデモンストレーションよりもマルチモーダルなデモンストレーションの有効性が示され、(b) メタ学習中のさまざまなデータ選択戦略がエージェントの汎化に及ぼす影響が明らかになり、(c)
Web エージェントの成功率に対する少数ショットの例の数の影響。
全体として、私たちの結果は、大規模な事前トレーニングと微調整を超えて、広く適用可能なマルチモーダル Web エージェントを開発するための補完的な軸を明らかにし、少数ショットの適応性を強調しています。
要約(オリジナル)
State-of-the-art multimodal web agents, powered by Multimodal Large Language Models (MLLMs), can autonomously execute many web tasks by processing user instructions and interacting with graphical user interfaces (GUIs). Current strategies for building web agents rely on (i) the generalizability of underlying MLLMs and their steerability via prompting, and (ii) large-scale fine-tuning of MLLMs on web-related tasks. However, web agents still struggle to automate tasks on unseen websites and domains, limiting their applicability to enterprise-specific and proprietary platforms. Beyond generalization from large-scale pre-training and fine-tuning, we propose building agents for few-shot adaptability using human demonstrations. We introduce the AdaptAgent framework that enables both proprietary and open-weights multimodal web agents to adapt to new websites and domains using few human demonstrations (up to 2). Our experiments on two popular benchmarks — Mind2Web & VisualWebArena — show that using in-context demonstrations (for proprietary models) or meta-adaptation demonstrations (for meta-learned open-weights models) boosts task success rate by 3.36% to 7.21% over non-adapted state-of-the-art models, corresponding to a relative increase of 21.03% to 65.75%. Furthermore, our additional analyses (a) show the effectiveness of multimodal demonstrations over text-only ones, (b) shed light on the influence of different data selection strategies during meta-learning on the generalization of the agent, and (c) demonstrate the effect of number of few-shot examples on the web agent’s success rate. Overall, our results unlock a complementary axis for developing widely applicable multimodal web agents beyond large-scale pre-training and fine-tuning, emphasizing few-shot adaptability.
arxiv情報
著者 | Gaurav Verma,Rachneet Kaur,Nishan Srishankar,Zhen Zeng,Tucker Balch,Manuela Veloso |
発行日 | 2024-11-20 16:54:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google