要約
大規模言語モデル(LLM)は、ウェブナビゲーションのような多くのインテリジェントエージェントタスクに燃料を供給してきた:(1)ウェブページ上のアクションの多様性、(2)モデルの処理能力を超えるHTMLテキスト、(3)ウェブのオープンドメインの性質による意思決定の複雑性。このような課題を踏まえ、我々はChatGLM3-6BをベースにGPT-4の性能を持つ自動ウェブナビゲーションエージェントAutoWebGLMを開発した。人間のブラウジングパターンにヒントを得て、重要な情報を簡潔に保存しながらウェブページを表現するHTML簡略化アルゴリズムを設計する。我々は、カリキュラムトレーニングのためのウェブ閲覧データを構築するために、人間とAIのハイブリッド手法を採用する。そして、強化学習と棄却サンプリングによってモデルをブートストラップし、ウェブページの理解、ブラウザ操作、効率的なタスク分解を自らさらに促進する。テストのために、実世界のウェブブラウジングタスクを対象としたバイリンガルベンチマーク(AutoWebBench)を構築する。様々なウェブナビゲーションベンチマークでAutoWebGLMを評価し、その改善点を明らかにするとともに、実環境に取り組むための根本的な課題も明らかにする。関連するコード、モデル、およびデータは、∮URL{https://github.com/THUDM/AutoWebGLM}で公開されます。
要約(オリジナル)
Large language models (LLMs) have fueled many intelligent agent tasks, such as web navigation — but most existing agents perform far from satisfying in real-world webpages due to three factors: (1) the versatility of actions on webpages, (2) HTML text exceeding model processing capacity, and (3) the complexity of decision-making due to the open-domain nature of web. In light of the challenge, we develop AutoWebGLM, a GPT-4-outperforming automated web navigation agent built upon ChatGLM3-6B. Inspired by human browsing patterns, we design an HTML simplification algorithm to represent webpages, preserving vital information succinctly. We employ a hybrid human-AI method to build web browsing data for curriculum training. Then, we bootstrap the model by reinforcement learning and rejection sampling to further facilitate webpage comprehension, browser operations, and efficient task decomposition by itself. For testing, we establish a bilingual benchmark — AutoWebBench — for real-world web browsing tasks. We evaluate AutoWebGLM across diverse web navigation benchmarks, revealing its improvements but also underlying challenges to tackle real environments. Related code, model, and data will be released at \url{https://github.com/THUDM/AutoWebGLM}.
arxiv情報
著者 | Hanyu Lai,Xiao Liu,Iat Long Iong,Shuntian Yao,Yuxuan Chen,Pengbo Shen,Hao Yu,Hanchen Zhang,Xiaohan Zhang,Yuxiao Dong,Jie Tang |
発行日 | 2024-04-04 17:58:40+00:00 |
arxivサイト | arxiv_id(pdf) |