Towards Internet-Scale Training For Agents

要約

Webナビゲーションエージェントをトレーニングするための主なアプローチは、人気のあるWebサイトや手書きのタスクのセットの人間のデモンストレーションを集めていますが、人間のデータが非効率的なリソースであることが明らかになっています。
面倒な人間の注釈なしでエージェントのインターネットスケールトレーニングを容易にするために、パイプラインを開発します。
最初の段階では、LLMが150kの多様なWebサイトのタスクを生成します。
次の段階では、LLMエージェントはタスクを完了し、軌跡を生成します。
最終段階では、LLMが軌跡をレビューし、成功を判断します。
言語モデルは、人間のアノテーターと競合し、97%の精度で有害なコンテンツを検出およびフィルタリングし、89%のレートで実行可能なタスクを生成し、82.6%の精度で成功した軌道を判断します。
パイプラインをスケーリングすると、Llama 3.1 70bに基づくエージェントは、150Kサイトのタスクの16.7%を解きます。
パイプラインによって生成されたデータに関するトレーニングは、人間のデモンストレーションに関するトレーニングと競争します。
Mind2WebとWeblinxから派生したデータ制限設定では、パイプラインからのデータの混合物とヒトデータでトレーニングされたエージェントについて、それぞれ +89.5%と +122.1%までステップ精度を向上させます。
これらのベンチマークから利用可能なすべての人間データを備えたトレーニングエージェントは、エージェントが多様な実際のサイトに一般化することができず、データを追加すると、Weblinxで +149.0%、Mind2Webで +156.3%を改善します。
コードは、data-agents.github.ioで入手できます。

要約(オリジナル)

The predominant approach for training web navigation agents gathers human demonstrations for a set of popular websites and hand-written tasks, but it is becoming clear that human data are an inefficient resource. We develop a pipeline to facilitate Internet-scale training for agents without laborious human annotations. In the first stage, an LLM generates tasks for 150k diverse websites. In the next stage, LLM agents complete tasks and produce trajectories. In the final stage, an LLM reviews the trajectories and judges their success. Language models are competitive with human annotators, detecting and filtering out harmful content with an accuracy of 97%, generating feasible tasks with an 89% rate, and judging successful trajectories with an 82.6% accuracy. Scaling the pipeline, agents based on Llama 3.1 70B solve 16.7% of tasks for 150k sites. Training on the data generated by our pipeline is competitive with training on human demonstrations. In data-limited settings derived from Mind2Web and WebLINX, we improve Step Accuracy by up to +89.5% and +122.1% respectively for agents trained on mixtures of data from our pipeline, and human data. When training agents with all available human data from these benchmarks, agents fail to generalize to diverse real sites, and adding our data improves their generalization by +149.0% for WebLINX and +156.3% for Mind2Web. Code will be available at: data-for-agents.github.io.

arxiv情報

著者 Brandon Trabucco,Gunnar Sigurdsson,Robinson Piramuthu,Ruslan Salakhutdinov
発行日 2025-02-10 18:54:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク