要約
Mind2Web は、言語の指示に従ってあらゆる Web サイト上で複雑なタスクを完了できる、Web 用ジェネラリスト エージェントを開発および評価するための最初のデータセットです。
Web エージェント用の既存のデータセットは、シミュレートされた Web サイトを使用するか、限られた Web サイトとタスクのセットのみをカバーするため、一般的な Web エージェントには適していません。
Mind2Web は、31 のドメインにまたがる 137 の Web サイトから収集された 2,000 を超える自由形式のタスクと、そのタスクのクラウドソーシングされたアクション シーケンスにより、ジェネラリスト Web エージェントを構築するために必要な 3 つの要素を提供します。1) 多様なドメイン、Web サイト、タスク、2) 現実世界の使用
シミュレートされた簡素化された Web サイトではなく、Web サイト、および 3) 幅広いユーザー対話パターン。
Mind2Web に基づいて、ジェネラリスト Web エージェントを構築するための大規模言語モデル (LLM) の使用に関する初期調査を実施します。
現実世界の Web サイトの生の HTML は、LLM に供給するには大きすぎることがよくありますが、最初に小さな LM でフィルタリングすることで、LLM の有効性と効率が大幅に向上することを示します。
私たちのソリューションは、これまでモデルが見たことのない Web サイトやドメイン全体でも、かなりのレベルのパフォーマンスを示していますが、真に汎用化可能なエージェントに向けて改善の余地はまだかなりあります。
Web 用のジェネラリスト エージェントの構築に関するさらなる研究を促進するために、データセット、モデル実装、トレーニング済みモデル (https://osu-nlp-group.github.io/Mind2Web) をオープンソースにしています。
要約(オリジナル)
We introduce Mind2Web, the first dataset for developing and evaluating generalist agents for the web that can follow language instructions to complete complex tasks on any website. Existing datasets for web agents either use simulated websites or only cover a limited set of websites and tasks, thus not suitable for generalist web agents. With over 2,000 open-ended tasks collected from 137 websites spanning 31 domains and crowdsourced action sequences for the tasks, Mind2Web provides three necessary ingredients for building generalist web agents: 1) diverse domains, websites, and tasks, 2) use of real-world websites instead of simulated and simplified ones, and 3) a broad spectrum of user interaction patterns. Based on Mind2Web, we conduct an initial exploration of using large language models (LLMs) for building generalist web agents. While the raw HTML of real-world websites are often too large to be fed to LLMs, we show that first filtering it with a small LM significantly improves the effectiveness and efficiency of LLMs. Our solution demonstrates a decent level of performance, even on websites or entire domains the model has never seen before, but there is still a substantial room to improve towards truly generalizable agents. We open-source our dataset, model implementation, and trained models (https://osu-nlp-group.github.io/Mind2Web) to facilitate further research on building a generalist agent for the web.
arxiv情報
著者 | Xiang Deng,Yu Gu,Boyuan Zheng,Shijie Chen,Samuel Stevens,Boshi Wang,Huan Sun,Yu Su |
発行日 | 2023-06-09 17:44:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google