GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding

要約

最近、グラフィカルユーザーインターフェイス(GUI)を直接知覚し、対応するコマンドを生成することにより、キーボードとマウスの入力を制御するためのエージェントとしてマルチモーダル大手言語モデル(MLLM)が使用されています。
ただし、現在のエージェントは主に静的環境で強力な理解能力を示しており、主にWebやモバイルインターフェイスなどの比較的単純なドメインに適用されます。
堅牢なGUIエージェントは、動的なWebコンテンツやマルチステップタスクなど、GUIに関する一時的な情報を知覚できる必要があると主張します。
さらに、デスクトップソフトウェアやマルチウィンドウインタラクションなど、さまざまなGUIシナリオを包括的に理解する必要があります。
この目的のために、このペーパーでは、GUI-WORLDと呼ばれる新しいデータセットを紹介します。これは、細心の注意を払って作成されたHumllMアノテーションを特徴としており、3つの形式で6つのGUIシナリオと8種類のギリエーションの質問を広範囲にカバーしています。
さまざまなタイプのGUIコンテンツ、特に動的およびシーケンシャルコンテンツを理解する際に、画像LLMやビデオLLMを含む現在の最先端のMLLMの機能を評価します。
私たちの調査結果は、現在のモデルが手動で注釈されたキーフレームや操作履歴なしで動的GUIコンテンツと格闘していることを明らかにしています。
一方、ビデオLLMは、まばらなGUIビデオデータセットを考慮して、すべてのガイ指向のタスクで不足しています。
したがって、微調整されたビデオLLM、GUI-VIDを指向のアシスタントとして活用するという最初のステップを踏み出し、さまざまなGUIタスクの理解が向上しました。
ただし、Base LLMSのパフォーマンスの制限により、Video LLMSをGUIエージェントとして使用することは依然として大きな課題であると結論付けています。
私たちの仕事は、動的なGUIコンテンツの理解における将来の研究のための貴重な洞察を提供すると考えています。
すべてのデータセットとコードは、https://gui-world.github.ioで公開されています。

要約(オリジナル)

Recently, Multimodal Large Language Models (MLLMs) have been used as agents to control keyboard and mouse inputs by directly perceiving the Graphical User Interface (GUI) and generating corresponding commands. However, current agents primarily demonstrate strong understanding capabilities in static environments and are mainly applied to relatively simple domains, such as Web or mobile interfaces. We argue that a robust GUI agent should be capable of perceiving temporal information on the GUI, including dynamic Web content and multi-step tasks. Additionally, it should possess a comprehensive understanding of various GUI scenarios, including desktop software and multi-window interactions. To this end, this paper introduces a new dataset, termed GUI-World, which features meticulously crafted Human-MLLM annotations, extensively covering six GUI scenarios and eight types of GUI-oriented questions in three formats. We evaluate the capabilities of current state-of-the-art MLLMs, including Image LLMs and Video LLMs, in understanding various types of GUI content, especially dynamic and sequential content. Our findings reveal that current models struggle with dynamic GUI content without manually annotated keyframes or operation history. On the other hand, Video LLMs fall short in all GUI-oriented tasks given the sparse GUI video dataset. Therefore, we take the initial step of leveraging a fine-tuned Video LLM, GUI-Vid, as a GUI-oriented assistant, demonstrating an improved understanding of various GUI tasks. However, due to the limitations in the performance of base LLMs, we conclude that using video LLMs as GUI agents remains a significant challenge. We believe our work provides valuable insights for future research in dynamic GUI content understanding. All the dataset and code are publicly available at: https://gui-world.github.io.

arxiv情報

著者 Dongping Chen,Yue Huang,Siyuan Wu,Jingyu Tang,Liuyi Chen,Yilin Bai,Zhigang He,Chenlong Wang,Huichi Zhou,Yiqiang Li,Tianshuo Zhou,Yue Yu,Chujie Gao,Qihui Zhang,Yi Gui,Zhen Li,Yao Wan,Pan Zhou,Jianfeng Gao,Lichao Sun
発行日 2025-03-24 11:46:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク