Spotlight: Mobile UI Understanding using Vision-Language Models with a Focus

要約

モバイル UI の理解は、UI の自動化やアクセシビリティなど、さまざまな対話タスクを有効にするために重要です。
以前のモバイル UI モデリングは、多くの場合、UI の構造データを直接提供する画面のビュー階層情報に依存し、画面ピクセルから視覚モデリングの困難なタスクを回避することを望んでいました。
ただし、ビュー階層は常に利用できるとは限らず、オブジェクトの説明が欠落していたり​​、バウンディング ボックスの位置がずれていたりして破損していることがよくあります。
結果として、ビュー階層を使用すると、短期的にはある程度の利点が得られますが、最終的にはモデルの適用性とパフォーマンスが妨げられる可能性があります。
このホワイト ペーパーでは、モバイル UI を理解するための視覚のみのアプローチである Spotlight を提案します。
具体的には、UI のスクリーンショットと画面上の関心領域 (フォーカス) のみを入力として取得する視覚言語モデルを強化します。
この一般的なアーキテクチャは簡単に拡張でき、さまざまな UI モデリング タスクを実行できます。
私たちの実験では、モデルがいくつかの代表的な UI タスクで SoTA の結果を取得し、スクリーンショットとビュー階層の両方を入力として使用する以前の方法よりも優れていることが示されています。
さらに、提案されたモデルのマルチタスク学習と少数ショットのプロンプト機能を調査し、マルチタスク学習の方向性で有望な結果を示します。

要約(オリジナル)

Mobile UI understanding is important for enabling various interaction tasks such as UI automation and accessibility. Previous mobile UI modeling often depends on the view hierarchy information of a screen, which directly provides the structural data of the UI, with the hope to bypass challenging tasks of visual modeling from screen pixels. However, view hierarchy is not always available, and is often corrupted with missing object descriptions or misaligned bounding box positions. As a result, although using view hierarchy offers some short-term gains, it may ultimately hinder the applicability and performance of the model. In this paper, we propose Spotlight, a vision-only approach for mobile UI understanding. Specifically, we enhance a vision-language model that only takes the screenshot of the UI and a region of interest on the screen — the focus — as the input. This general architecture is easily scalable and capable of performing a range of UI modeling tasks. Our experiments show that our model obtains SoTA results on several representative UI tasks and outperforms previous methods that use both screenshots and view hierarchies as input. Furthermore, we explore the multi-task learning and few-shot prompting capacity of the proposed models, demonstrating promising results in the multi-task learning direction.

arxiv情報

著者 Gang Li,Yang Li
発行日 2022-09-29 16:45:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC, cs.LG パーマリンク