ScreenQA: Large-Scale Question-Answer Pairs over Mobile App Screenshots

要約

質問応答を通じて画面コンテンツを理解するための新しいベンチマークとデータセット、ScreenQA を紹介します。
既存の画面データセットは、構造とコンポーネント レベルの理解、またはナビゲーションやタスクの完了などのより高いレベルの複合タスクのいずれかに焦点を当てています。
私たちは、画面の読解能力のベンチマークを目的として、RICO データセットに対して 86,000 の質問と回答のペアに注釈を付けることで、これら 2 つの間のギャップを埋めることを試みています。
また、この作品は、完全な文と短い形式の両方を含むさまざまなアプリケーション シナリオに対する回答に注釈を付け、画面上の UI コンテンツとその境界ボックスをサポートする最初の機能でもあります。
豊富な注釈を使用して、ベンチマークの評価指標を議論および定義し、データセットのアプリケーションを示し、クローズドおよびオープン ソース モデルを使用していくつかのベースラインを提供します。

要約(オリジナル)

We present a new benchmark and dataset, ScreenQA, for screen content understanding via question answering. The existing screen datasets are focused either on structure and component-level understanding, or on a much higher-level composite task such as navigation and task completion. We attempt to bridge the gap between these two by annotating 86K question-answer pairs over the RICO dataset in hope to benchmark the screen reading comprehension capacity. This work is also the first to annotate answers for different application scenarios, including both full sentences and short forms, as well as supporting UI contents on screen and their bounding boxes. With the rich annotation, we discuss and define the evaluation metrics of the benchmark, show applications of the dataset, and provide a few baselines using closed and open source models.

arxiv情報

著者 Yu-Chung Hsiao,Fedir Zubach,Gilles Baechler,Victor Carbune,Jason Lin,Maria Wang,Srinivas Sunkara,Yun Zhu,Jindong Chen
発行日 2024-07-30 05:12:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.HC パーマリンク