要約
ワールドワイドウェブは、ウェブサイトやウェブページを主要なインターフェイスとし、重要な情報の伝達を容易にしています。そのためには、ユーザーの行動、特に視線の位置などを分析し、ユーザーとのインタラクションをより良くするための最適化を行うことが重要です。しかし、これらのデータを収集することは、依然として労力と時間がかかると考えられています。本研究では、Webサイトのスクリーンショットを入力とした視線位置の自動推定を可能にする。これは、Webサイトのスクリーンショット、視線ヒートマップ、Webサイトのレイアウト情報(画像とテキストマスク)からなる統一データセットのキュレーションによって実現される。前処理されたデータセットにより、画像とテキストの空間位置の両方を活用し、注意メカニズムによって結合された効果的な視線予測用の深層学習ベースのモデルを提案することができます。我々の実験では、視線予測の精度を向上させるために、我々の統一データセットを用いて慎重に微調整を行うことの利点を示す。さらに、本モデルが高い精度を達成するために、ターゲットとなる領域(画像とテキスト)に焦点を当てることができることを観察する。最後に、他の選択肢との比較により、本モデルが視線予測タスクのベンチマークを確立し、最先端の結果を示す。
要約(オリジナル)
World-wide-web, with the website and webpage as the main interface, facilitates the dissemination of important information. Hence it is crucial to optimize them for better user interaction, which is primarily done by analyzing users’ behavior, especially users’ eye-gaze locations. However, gathering these data is still considered to be labor and time intensive. In this work, we enable the development of automatic eye-gaze estimations given a website screenshots as the input. This is done by the curation of a unified dataset that consists of website screenshots, eye-gaze heatmap and website’s layout information in the form of image and text masks. Our pre-processed dataset allows us to propose an effective deep learning-based model that leverages both image and text spatial location, which is combined through attention mechanism for effective eye-gaze prediction. In our experiment, we show the benefit of careful fine-tuning using our unified dataset to improve the accuracy of eye-gaze predictions. We further observe the capability of our model to focus on the targeted areas (images and text) to achieve high accuracy. Finally, the comparison with other alternatives shows the state-of-the-art result of our model establishing the benchmark for the eye-gaze prediction task.
arxiv情報
著者 | Ciheng Zhang,Decky Aspandi,Steffen Staab |
発行日 | 2023-01-06 09:27:10+00:00 |
arxivサイト | arxiv_id(pdf) |