VideoGUI: A Benchmark for GUI Automation from Instructional Videos

要約

グラフィカル ユーザー インターフェイス (GUI) の自動化は、コンピューターのタスクを支援することで人間の生産性を向上させるという大きな可能性を秘めています。
既存のタスクの定式化は、「新しいスライドを挿入する」など、単一の言語のみの指示で指定できる単純なタスクに主に焦点を当てています。
この研究では、ビジュアル中心の GUI タスクで GUI アシスタントを評価するように設計された新しいマルチモーダル ベンチマークである VideoGUI を紹介します。
高品質の Web 教育ビデオをソースとする当社のベンチマークは、専門的かつ斬新なソフトウェア (Adobe Photoshop や Stable Diffusion WebUI など) や複雑なアクティビティ (ビデオ編集など) を含むタスクに焦点を当てています。
VideoGUI は、階層的なプロセスを通じて GUI アシスタントを評価し、失敗する可能性のある特定のレベルの特定を可能にします。(i) 高レベルの計画: 言語説明のない視覚的条件から手順のサブタスクを再構築します。
(ii) 中レベルの計画: 視覚的な状態 (スクリーンショットなど) と目標に基づいて、一連の正確なアクションのナレーションを生成します。
(iii) アトミックアクション実行: 指定された要素を正確にクリックするなど、特定のアクションを実行します。
レベルごとに、個別の次元にわたる評価指標を設計して、アトミックなアクションの実行におけるクリック、ドラッグ、入力、スクロールなどの個別のパフォーマンスなどの明確なシグナルを提供します。
VideoGUI に関する私たちの評価では、SoTA の大規模マルチモーダル モデル GPT4o でさえ、ビジュアル中心の GUI タスク、特に高レベルの計画ではパフォーマンスが低いことが明らかになりました。

要約(オリジナル)

Graphical User Interface (GUI) automation holds significant promise for enhancing human productivity by assisting with computer tasks. Existing task formulations primarily focus on simple tasks that can be specified by a single, language-only instruction, such as ‘Insert a new slide.’ In this work, we introduce VideoGUI, a novel multi-modal benchmark designed to evaluate GUI assistants on visual-centric GUI tasks. Sourced from high-quality web instructional videos, our benchmark focuses on tasks involving professional and novel software (e.g., Adobe Photoshop or Stable Diffusion WebUI) and complex activities (e.g., video editing). VideoGUI evaluates GUI assistants through a hierarchical process, allowing for identification of the specific levels at which they may fail: (i) high-level planning: reconstruct procedural subtasks from visual conditions without language descriptions; (ii) middle-level planning: generate sequences of precise action narrations based on visual state (i.e., screenshot) and goals; (iii) atomic action execution: perform specific actions such as accurately clicking designated elements. For each level, we design evaluation metrics across individual dimensions to provide clear signals, such as individual performance in clicking, dragging, typing, and scrolling for atomic action execution. Our evaluation on VideoGUI reveals that even the SoTA large multimodal model GPT4o performs poorly on visual-centric GUI tasks, especially for high-level planning.

arxiv情報

著者 Kevin Qinghong Lin,Linjie Li,Difei Gao,Qinchen WU,Mingyi Yan,Zhengyuan Yang,Lijuan Wang,Mike Zheng Shou
発行日 2024-06-14 17:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク