Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms

要約

ユーザー インターフェイス (UI) を理解するための汎用モデルを構築することは、プラットフォームの多様性、解像度の変動、データ制限などのさまざまな基本的な問題により困難です。
このペーパーでは、iPhone、Android、iPad、Web ページ、AppleTV など、幅広いプラットフォームでユニバーサル UI を理解できるように設計されたマルチモーダル大規模言語モデル (MLLM) である Ferret-UI 2 を紹介します。
Ferret-UI の基盤に基づいて構築された Ferret-UI 2 は、複数のプラットフォーム タイプのサポート、アダプティブ スケーリングによる高解像度認識、セット オブ マーク ビジュアルを備えた GPT-4o による高度なタスク トレーニング データ生成という 3 つの主要な革新を導入しています。
促す。
これらの進歩により、Ferret-UI 2 は複雑なユーザー中心のインタラクションを実行できるようになり、プラットフォーム エコシステムの多様性の拡大に合わせて非常に汎用性が高く、適応できるようになりました。
参照、グラウンディング、ユーザー中心の高度なタスク (9 つのサブタスク $\times$ 5 つのプラットフォームで構成)、GUIDE の次のアクション予測データセット、および GUI-World マルチプラットフォーム ベンチマークに関する広範な実証実験により、Ferret-UI 2 が Ferret よりも大幅に優れていることが実証されました。
UI に加え、強力なクロスプラットフォーム転送機能も示します。

要約(オリジナル)

Building a generalist model for user interface (UI) understanding is challenging due to various foundational issues, such as platform diversity, resolution variation, and data limitation. In this paper, we introduce Ferret-UI 2, a multimodal large language model (MLLM) designed for universal UI understanding across a wide range of platforms, including iPhone, Android, iPad, Webpage, and AppleTV. Building on the foundation of Ferret-UI, Ferret-UI 2 introduces three key innovations: support for multiple platform types, high-resolution perception through adaptive scaling, and advanced task training data generation powered by GPT-4o with set-of-mark visual prompting. These advancements enable Ferret-UI 2 to perform complex, user-centered interactions, making it highly versatile and adaptable for the expanding diversity of platform ecosystems. Extensive empirical experiments on referring, grounding, user-centric advanced tasks (comprising 9 subtasks $\times$ 5 platforms), GUIDE next-action prediction dataset, and GUI-World multi-platform benchmark demonstrate that Ferret-UI 2 significantly outperforms Ferret-UI, and also shows strong cross-platform transfer capabilities.

arxiv情報

著者 Zhangheng Li,Keen You,Haotian Zhang,Di Feng,Harsh Agrawal,Xiujun Li,Mohana Prasad Sathya Moorthy,Jeff Nichols,Yinfei Yang,Zhe Gan
発行日 2024-10-24 17:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク