要約
グラフィカル ユーザー インターフェイス (GUI) は、デジタル デバイスとの対話の中心です。
最近、さまざまな GUI 理解タスクのためのモデルを構築する取り組みがますます行われています。
しかし、これらの取り組みでは、GUI を参照する重要なタスク、つまりユーザーが指定したポイントに基づく画面の読み取り (SPR) タスクと名付けたタスクがほとんど見落とされています。
このタスクは主に、アクセス可能な厳格な画面読み取りツールによって処理され、マルチモーダル大規模言語モデル (MLLM) の進歩によって推進される新しいモデルが大いに必要とされています。
この論文では、SPR タスクに対処するために、新しい ToL グラウンディング メカニズムを利用した Tree-of-Lens (ToL) エージェントを提案します。
入力ポイントの座標と対応する GUI スクリーンショットに基づいて、ToL エージェントは階層レイアウト ツリーを構築します。
ToL エージェントは、ツリーに基づいて、指定された領域の内容を理解するだけでなく、要素間のレイアウトと空間的関係も明確に示します。
このようなレイアウト情報は、画面上の情報を正確に解釈し、ToL エージェントを他の画面読み取りツールと区別するために重要です。
また、モバイル、Web、オペレーティング システムの GUI を含む、新しく提案された SPR ベンチマークの他のベースラインに対して ToL エージェントを徹底的に評価します。
最後に重要なことを言い忘れましたが、モバイル GUI ナビゲーション タスクで ToL エージェントをテストし、エージェント実行軌跡のパスに沿って誤ったアクションを特定する際のその有用性を実証します。
コードとデータ: screen-point-and-read.github.io
要約(オリジナル)
Graphical User Interfaces (GUIs) are central to our interaction with digital devices. Recently, growing efforts have been made to build models for various GUI understanding tasks. However, these efforts largely overlook an important GUI-referring task: screen reading based on user-indicated points, which we name the Screen Point-and-Read (SPR) task. This task is predominantly handled by rigid accessible screen reading tools, in great need of new models driven by advancements in Multimodal Large Language Models (MLLMs). In this paper, we propose a Tree-of-Lens (ToL) agent, utilizing a novel ToL grounding mechanism, to address the SPR task. Based on the input point coordinate and the corresponding GUI screenshot, our ToL agent constructs a Hierarchical Layout Tree. Based on the tree, our ToL agent not only comprehends the content of the indicated area but also articulates the layout and spatial relationships between elements. Such layout information is crucial for accurately interpreting information on the screen, distinguishing our ToL agent from other screen reading tools. We also thoroughly evaluate the ToL agent against other baselines on a newly proposed SPR benchmark, which includes GUIs from mobile, web, and operating systems. Last but not least, we test the ToL agent on mobile GUI navigation tasks, demonstrating its utility in identifying incorrect actions along the path of agent execution trajectories. Code and data: screen-point-and-read.github.io
arxiv情報
著者 | Yue Fan,Lei Ding,Ching-Chen Kuo,Shan Jiang,Yang Zhao,Xinze Guan,Jie Yang,Yi Zhang,Xin Eric Wang |
発行日 | 2024-06-27 15:34:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google