NNetNav: Unsupervised Learning of Browser Agents Through Environment Interaction in the Wild

要約

NNETNAVを紹介します。これは、ブラウザエージェントのトレーニング用の合成デモンストレーションを生成するWebサイトとの監視されていない相互作用の方法です。
Webサイトを考慮して、Nnetnavは、探査ポリシーからアクションシーケンスを遡及的にラベル付けすることにより、これらのデモンストレーションを作成します。
トレーニングブラウザエージェントのほとんどの作業は、高価な人間の監督に依存しており、そのような相互作用ベースの手法に関する限られた以前の作業は、指数関数的に大きな探査空間を通じて効果的な検索を提供できませんでした。
対照的に、NNETNAVは、言語命令の階層構造を活用してこの検索をより扱いやすくするために:複雑な命令は通常、より単純なサブタスクに分解され、NNETNAVが意味のあるサブタスクで中間の導体を発行できない場合に相互作用エピソードを自動的にプルンすることができます。
\ texttt {llama-3.1-8b} finetuned 10k nnetnav自己生成デモンストレーションでは、Webarenaで16 \%の成功率、Webvoyagerで35%を超える成功率が得られ、15ptsと31ptの改善がそれぞれZero-shot \ textt {llama- {llama- {llama-
3.1-8b}、ゼロショットGPT-4を上回り、両方のベンチマークについて、監視されていない方法の中で最先端に到達します。

要約(オリジナル)

We introduce NNetNav, a method for unsupervised interaction with websites that generates synthetic demonstrations for training browser agents. Given any website, NNetNav produces these demonstrations by retroactively labeling action sequences from an exploration policy. Most work on training browser agents has relied on expensive human supervision, and the limited prior work on such interaction-based techniques has failed to provide effective search through the exponentially large space of exploration. In contrast, NNetNav exploits the hierarchical structure of language instructions to make this search more tractable: Complex instructions are typically decomposable into simpler sub-tasks, allowing NNetNav to automatically prune interaction episodes when an intermediate trajectory cannot be annotated with a meaningful sub-task. \texttt{LLama-3.1-8b} finetuned on 10k NNetNav self-generated demonstrations obtains over 16\% success rate on WebArena, and 35\% on WebVoyager, an improvement of 15pts and 31pts respectively over zero-shot \texttt{LLama-3.1-8b}, outperforming zero-shot GPT-4 and reaching the state-of-the-art among unsupervised methods, for both benchmarks.

arxiv情報

著者 Shikhar Murty,Hao Zhu,Dzmitry Bahdanau,Christopher D. Manning
発行日 2025-02-05 18:56:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク