Predicting Visual Attention in Graphic Design Documents

要約

グラフィック デザイン ドキュメントを自由に閲覧する際の視覚的注意を予測するためのモデルを紹介します。
このトピックに関する既存の研究は、グラフィック デザインの静的な顕著性を予測することを目的としていましたが、私たちの研究は、深層学習ベースのモデルを使用して、文書領域が視線によって固定される空間的注意と動的な時間的順序の両方を予測する最初の試みです。
私たちは、このようなドキュメントに対する動的な注目を予測するための 2 段階モデル​​を提案します。デモンストレーション用のドキュメント デザインの主な選択は Web ページです。
最初の段階では、ドキュメント レイアウトのタイプに基づいて、各ドキュメント コンポーネント (Web ページのロゴ、バナー、テキストなど) の顕著性マップを予測します。
これらのコンポーネントの顕著性マップは、ドキュメント全体の顕著性を予測するために組み合わせて使用​​されます。
第 2 段階では、これらのレイアウト固有のコンポーネント顕著性マップを、ドキュメント閲覧中の注視走査経路予測の逆強化学習モデルの状態表現として使用します。
私たちのモデルをテストするために、450 の Web ページを自由に閲覧している 41 人の目の動きから構成される新しいデータセット (この種のデータセットとしては最大) を収集しました。
実験結果は、私たちのモデルが Web ページの顕著性とスキャンパス予測の両方で既存のモデルよりも優れており、コミック、ポスター、モバイル UI などの他のグラフィック デザイン ドキュメントや自然画像にも非常によく一般化できることを示しています。

要約(オリジナル)

We present a model for predicting visual attention during the free viewing of graphic design documents. While existing works on this topic have aimed at predicting static saliency of graphic designs, our work is the first attempt to predict both spatial attention and dynamic temporal order in which the document regions are fixated by gaze using a deep learning based model. We propose a two-stage model for predicting dynamic attention on such documents, with webpages being our primary choice of document design for demonstration. In the first stage, we predict the saliency maps for each of the document components (e.g. logos, banners, texts, etc. for webpages) conditioned on the type of document layout. These component saliency maps are then jointly used to predict the overall document saliency. In the second stage, we use these layout-specific component saliency maps as the state representation for an inverse reinforcement learning model of fixation scanpath prediction during document viewing. To test our model, we collected a new dataset consisting of eye movements from 41 people freely viewing 450 webpages (the largest dataset of its kind). Experimental results show that our model outperforms existing models in both saliency and scanpath prediction for webpages, and also generalizes very well to other graphic design documents such as comics, posters, mobile UIs, etc. and natural images.

arxiv情報

著者 Souradeep Chakraborty,Zijun Wei,Conor Kelton,Seoyoung Ahn,Aruna Balasubramanian,Gregory J. Zelinsky,Dimitris Samaras
発行日 2024-07-02 17:15:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク