要約
モバイル デバイス上のオンライン GUI ナビゲーションは、多くの実世界のアプリケーションに貢献しているため、近年大きな注目を集めています。
大規模言語モデル (LLM) の急速な発展により、マルチモーダル大規模言語モデル (MLLM) は、このタスクに関して多大な可能性を秘めています。
ただし、既存の MLLM は、人間のユーザー入力に従って正しいナビゲーション決定を行う能力を向上させるために、高品質のデータを必要とします。
この論文では、実際の人間の行動と注釈付きの高品質スクリーンショットを含む初の中国の GUI ナビゲーション データセットとして、\textbf{E-ANT} という斬新で非常に価値のあるデータセットを開発しました。これには、5,000 以上の実際の人間の痕跡が約 40,000 件含まれています。
異なる tinyAPP 。
さらに、E-ANT 上でさまざまな強力な MLLM を評価し、十分なアブレーションを伴う実験結果を示します。
私たちは、提案したデータセットが GUI ナビゲーションと LLM/MLLM 意思決定機能の評価と開発の両方に有益であると信じています。
要約(オリジナル)
Online GUI navigation on mobile devices has driven a lot of attention recent years since it contributes to many real-world applications. With the rapid development of large language models (LLM), multimodal large language models (MLLM) have tremendous potential on this task. However, existing MLLMs need high quality data to improve its abilities of making the correct navigation decisions according to the human user inputs. In this paper, we developed a novel and highly valuable dataset, named \textbf{E-ANT}, as the first Chinese GUI navigation dataset that contains real human behaviour and high quality screenshots with annotations, containing nearly 40,000 real human traces over 5000+ different tinyAPPs. Furthermore, we evaluate various powerful MLLMs on E-ANT and show their experiments results with sufficient ablations. We believe that our proposed dataset will be beneficial for both the evaluation and development of GUI navigation and LLM/MLLM decision-making capabilities.
arxiv情報
著者 | Ke Wang,Tianyu Xia,Zhangxuan Gu,Yi Zhao,Shuheng Shen,Changhua Meng,Weiqiang Wang,Ke Xu |
発行日 | 2024-07-01 08:37:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google