要約
Webナビゲーションエージェントをトレーニングするための主なアプローチは、人気のあるWebサイトや手書きのタスクのセットのために人間のデモを収集することですが、人間のデータが非効率的なリソースであることが明らかになっています。
面倒な人間の注釈なしでエージェントのインターネットスケールトレーニングを容易にするために、パイプラインを開発します。
最初の段階では、LLMにエージェントタスクを備えた150Kサイトに注釈を付けます。
次の段階では、LLMエージェントはタスクを完了し、軌跡を生成します。
最終段階では、LLMが成功を判断することにより軌跡をフィルタリングします。
言語モデルは強力なデータキュレーションツールであり、97%の精度で有害なコンテンツを特定し、82.6%の精度で成功した軌跡を判断し、効果的なデータを生成します。
WebエージェントとしてFrontier LLMSと競合するQwen 3 1.7bに基づいてエージェントをトレーニングしますが、より小さく速くなります。
私たちのトップエージェントは56.9%の成功率に達し、データ収集ポリシーQwen 3 235b、235倍のLlama 4 Maverickを上回り、Gemini 2.5 Flashのパフォーマンスの94.7%に達します。
https://data-for-agents.github.ioでコード、モデル、データをリリースしています。
要約(オリジナル)
The predominant approach for training web navigation agents is to gather human demonstrations for a set of popular websites and hand-written tasks, but it is becoming clear that human data is an inefficient resource. We develop a pipeline to facilitate internet-scale training for agents without laborious human annotations. In the first stage, an LLM annotates 150k sites with agentic tasks. In the next stage, LLM agents complete tasks and produce trajectories. In the final stage, an LLM filters trajectories by judging their success. Language models are powerful data curation tools, identifying harmful content with an accuracy of 97%, judging successful trajectories with an accuracy of 82.6%, and producing effective data. We train agents based on Qwen 3 1.7B that are competitive with frontier LLMs as web agents, while being smaller and faster. Our top agent reaches a success rate of 56.9%, outperforming the data collection policy Qwen 3 235B, a 235 times larger Llama 4 Maverick, and reaching 94.7% of the performance of Gemini 2.5 Flash. We are releasing code, models and data at: https://data-for-agents.github.io.
arxiv情報
著者 | Brandon Trabucco,Gunnar Sigurdsson,Robinson Piramuthu,Ruslan Salakhutdinov |
発行日 | 2025-05-22 17:59:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google