Falcon-UI: Understanding GUI Before Following User Instructions

要約

グラフィカル ユーザー インターフェイス (GUI) エージェントに対して人間のような対話を追求するには、GUI のコンテキストを理解し、ユーザーの指示に従う必要があります。
ただし、既存の作品は通常、これら 2 つの側面を結合し、GUI コンテキストを理解することの重要性を無視して、指示に従う能力に重点を置いています。
このペーパーでは、GUI 環境のモデルの理解を強化するために、Insight-UI データセットと呼ばれる命令不要の GUI ナビゲーション データセットを紹介します。
Insight-UI データセットは Common Crawl コーパスから自動的に生成され、iOS、Android、Windows、Linux などのさまざまなプラットフォームを 312K ドメインの複数の解像度でシミュレートします。
GUI の対話はコンテキストによって異なりますが、項目をクリックして詳細を表示するなど、多様なインターフェイスは共通の内部パターンを共有しています。
これは、独立した GUI 操作の学習と、それに続く命令チューニングとの共同最適化の実現可能性を意味します。
これにより、最初に Insight-UI データセットで事前トレーニングされ、その後 AITW、AITZ、Android Control、Mind2Web などの Android および Web GUI データセットで微調整される GUI エージェント モデル Falcon-UI を開発します。
70 億のパラメータを備えた Falcon-UI は、AITZ の 720 億パラメータの Qwen2VL に匹敵する精度を達成し、GUI コンテキストの理解とエージェントのパフォーマンスの整合性を検証します。
私たちのコードとデータセットはオープンソース化されます。

要約(オリジナル)

Pursuing human-like interaction for Graphical User Interface (GUI) agents requires understanding the GUI context and following user instructions. However, existing works typically couple these two aspects and focus more on instruct-following abilities, while ignoring the importance of understanding the GUI context. In this paper, we introduce an instruction-free GUI navigation dataset, termed Insight-UI Dataset, to enhance model comprehension of GUI environments. Insight-UI Dataset is automatically generated from the Common Crawl corpus, simulating various platforms — including iOS, Android, Windows, and Linux — across multiple resolutions on 312K domains. Although GUI interactions vary by context, diverse interfaces share common internal patterns, such as clicking an item to view its details. It implies the feasibility of independent GUI operation learning, followed by joint optimization with instruction tuning. Thereby, we develop the GUI agent model Falcon-UI, which is initially pretrained on Insight-UI Dataset and subsequently fine-tuned on Android and Web GUI datasets, including AITW, AITZ, Android Control, and Mind2Web. With 7 billion parameters, Falcon-UI achieves accuracy comparable to the 72 billion-parameter Qwen2VL on AITZ, validating the alignment between GUI context comprehension and agent performance. Our code and dataset will be open-sourced.

arxiv情報

著者 Huawen Shen,Chang Liu,Gengluo Li,Xinlong Wang,Yu Zhou,Can Ma,Xiangyang Ji
発行日 2024-12-12 15:29:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク