要約
グラフィカル ユーザー インターフェイス (GUI) の基礎は、視覚言語モデル (VLM) エージェントの機能を強化する上で重要な役割を果たします。
GPT-4V などの一般的な VLM は、さまざまなタスクにわたって優れたパフォーマンスを発揮しますが、GUI グラウンディングの習熟度は依然として最適とは言えません。
最近の研究では、ワンショット GUI グラウンディングに特化してこれらのモデルを微調整することに焦点を当てており、ベースライン パフォーマンスに比べて大幅な改善が得られています。
GUI グラウンディングにおける一般モデルと微調整モデルの両方のパフォーマンスをさらに向上させるために、反復的な絞り込みメカニズムを採用した視覚的なプロンプト フレームワークを導入します。
評価のために、さまざまな UI プラットフォームで構成される包括的なベンチマークでメソッドをテストし、結果を再現するコードを提供しました。
要約(オリジナル)
Graphical User Interface (GUI) grounding plays a crucial role in enhancing the capabilities of Vision-Language Model (VLM) agents. While general VLMs, such as GPT-4V, demonstrate strong performance across various tasks, their proficiency in GUI grounding remains suboptimal. Recent studies have focused on fine-tuning these models specifically for one-shot GUI grounding, yielding significant improvements over baseline performance. We introduce a visual prompting framework that employs an iterative narrowing mechanism to further improve the performance of both general and fine-tuned models in GUI grounding. For evaluation, we tested our method on a comprehensive benchmark comprising various UI platforms and provided the code to reproduce our results.
arxiv情報
著者 | Anthony Nguyen |
発行日 | 2024-12-09 11:04:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google