Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

要約

マルチモーダル大規模言語モデル (MLLM) の最近の進歩は注目に値しますが、これらの汎用ドメイン MLLM は、ユーザー インターフェイス (UI) 画面を理解し効果的に操作する能力が不足していることがよくあります。
このペーパーでは、モバイル UI 画面の理解を強化するために調整された、参照、グラウンディング、および推論の機能を備えた新しい MLLM である Ferret-UI を紹介します。
UI 画面は通常、自然画像よりも細長いアスペクト比を示し、対象となるオブジェクト (アイコン、テキストなど) が小さいことを考慮して、細部を拡大し、強化された視覚機能を活用するために、Ferret の上に「任意の解像度」を組み込んでいます。
具体的には、各画面は元のアスペクト比に基づいて 2 つのサブ画像に分割されます (つまり、縦画面の場合は水平分割、横画面の場合は垂直分割)。
両方のサブイメージは、LLM に送信される前に個別にエンコードされます。
私たちは、アイコン認識、テキストの検索、ウィジェットのリストなど、幅広い基本的な UI タスクからトレーニング サンプルを注意深く収集しています。
これらのサンプルは、正確な参照と基礎付けを容易にするために、領域の注釈を含む指示に従うようにフォーマットされています。
モデルの推論能力を強化するために、詳細な説明、認識/対話の会話、関数推論などの高度なタスク用のデータセットをさらにコンパイルします。
厳選されたデータセットでトレーニングした後、Ferret-UI は UI 画面の優れた理解力と、オープンエンド命令を実行する機能を示します。
モデルの評価では、前述のすべてのタスクを含む包括的なベンチマークを確立します。
Ferret-UI は、ほとんどのオープンソース UI MLLM を上回るだけでなく、すべての基本的な UI タスクにおいて GPT-4V をも上回ります。

要約(オリジナル)

Recent advancements in multimodal large language models (MLLMs) have been noteworthy, yet, these general-domain MLLMs often fall short in their ability to comprehend and interact effectively with user interface (UI) screens. In this paper, we present Ferret-UI, a new MLLM tailored for enhanced understanding of mobile UI screens, equipped with referring, grounding, and reasoning capabilities. Given that UI screens typically exhibit a more elongated aspect ratio and contain smaller objects of interest (e.g., icons, texts) than natural images, we incorporate ‘any resolution’ on top of Ferret to magnify details and leverage enhanced visual features. Specifically, each screen is divided into 2 sub-images based on the original aspect ratio (i.e., horizontal division for portrait screens and vertical division for landscape screens). Both sub-images are encoded separately before being sent to LLMs. We meticulously gather training samples from an extensive range of elementary UI tasks, such as icon recognition, find text, and widget listing. These samples are formatted for instruction-following with region annotations to facilitate precise referring and grounding. To augment the model’s reasoning ability, we further compile a dataset for advanced tasks, including detailed description, perception/interaction conversations, and function inference. After training on the curated datasets, Ferret-UI exhibits outstanding comprehension of UI screens and the capability to execute open-ended instructions. For model evaluation, we establish a comprehensive benchmark encompassing all the aforementioned tasks. Ferret-UI excels not only beyond most open-source UI MLLMs, but also surpasses GPT-4V on all the elementary UI tasks.

arxiv情報

著者 Keen You,Haotian Zhang,Eldon Schoop,Floris Weers,Amanda Swearngin,Jeffrey Nichols,Yinfei Yang,Zhe Gan
発行日 2024-04-08 17:55:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.HC パーマリンク