UI-JEPA: Towards Active Perception of User Intent through Onscreen User Activity

要約

一連のユーザー インターフェイス (UI) アクションからユーザーの意図を生成することは、UI を包括的に理解する上で中心的な課題です。
マルチモーダル大規模言語モデル (MLLM) の最近の進歩により、この分野では大幅な進歩が見られましたが、広範なモデル パラメーター、コンピューティング能力、および高遅延が要求されるため、低遅延または高遅延の軽量のオンデバイス ソリューションを必要とするシナリオには現実的ではありません。
プライバシー。
さらに、高品質のデータセットが不足しているため、このような軽量モデルの開発が妨げられています。
これらの課題に対処するために、私たちは、自己教師あり学習を通じてラベルのないデータから抽象的な UI 埋め込みを学習するマスキング戦略を採用する新しいフレームワークである UI-JEPA を、ユーザーの意図を予測するために微調整された LLM デコーダーと組み合わせて提案します。
また、少数ショットおよびゼロショットの UI 理解タスク向けに設計された 2 つの新しい UI ベースのマルチモーダル データセット、「Intent in the Wild」(IIW) と「Intent in the Tame」(IIT) も紹介します。
IIW は 219 のインテント カテゴリにわたる 1.7K のビデオで構成され、IIT には 10 カテゴリにわたる 914 のビデオが含まれます。
これらのデータセットの最初のベースラインを確立し、JEPA スタイルの目標を使用して学習した表現を LLM デコーダーと組み合わせることで、最先端の大規模 MLLM のパフォーマンスに匹敵するユーザー意図の予測を達成できることを示していますが、そのパフォーマンスは大幅に低下しています。
アノテーションとデプロイメントのリソース。
インテント類似性スコアで測定すると、UI-JEPA は、2 つのデータセットの平均で、GPT-4 Turbo と Claude 3.5 Sonnet をそれぞれ 10.0% と 7.2% 上回っています。
特に、UI-JEPA は、IIW データセットの計算コストを 50.5 倍削減し、レイテンシーを 6.6 倍改善するパフォーマンスを達成しています。
これらの結果は、UI-JEPA の有効性を強調し、軽量で高性能な UI 理解の可能性を強調しています。

要約(オリジナル)

Generating user intent from a sequence of user interface (UI) actions is a core challenge in comprehensive UI understanding. Recent advancements in multimodal large language models (MLLMs) have led to substantial progress in this area, but their demands for extensive model parameters, computing power, and high latency makes them impractical for scenarios requiring lightweight, on-device solutions with low latency or heightened privacy. Additionally, the lack of high-quality datasets has hindered the development of such lightweight models. To address these challenges, we propose UI-JEPA, a novel framework that employs masking strategies to learn abstract UI embeddings from unlabeled data through self-supervised learning, combined with an LLM decoder fine-tuned for user intent prediction. We also introduce two new UI-grounded multimodal datasets, ‘Intent in the Wild’ (IIW) and ‘Intent in the Tame’ (IIT), designed for few-shot and zero-shot UI understanding tasks. IIW consists of 1.7K videos across 219 intent categories, while IIT contains 914 videos across 10 categories. We establish the first baselines for these datasets, showing that representations learned using a JEPA-style objective, combined with an LLM decoder, can achieve user intent predictions that match the performance of state-of-the-art large MLLMs, but with significantly reduced annotation and deployment resources. Measured by intent similarity scores, UI-JEPA outperforms GPT-4 Turbo and Claude 3.5 Sonnet by 10.0% and 7.2% respectively, averaged across two datasets. Notably, UI-JEPA accomplishes the performance with a 50.5x reduction in computational cost and a 6.6x improvement in latency in the IIW dataset. These results underscore the effectiveness of UI-JEPA, highlighting its potential for lightweight, high-performance UI understanding.

arxiv情報

著者 Yicheng Fu,Raviteja Anantha,Prabal Vashisht,Jianpeng Cheng,Etai Littwin
発行日 2024-09-06 07:44:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG パーマリンク