Gazeformer: Scalable, Effective and Fast Prediction of Goal-Directed Human Attention

要約

タイトル:Gazeformer:スケーラブルで効果的かつ高速な目的指向型人間の注意の予測

要約:
・ヒトの視線を予測することは、ヒューマンコンピュータインタラクション(HCI)において重要である。
・しかし、HCIアプリケーションで実用的に使用できる視線予測モデルは、空間的および時間的な視線予測においてスケーラブルで、高速かつ正確である必要がある。
・最近のスキャンパス予測モデルは、目的に向けられた注目(検索)に焦点を当てている。
・このようなモデルは、すべての可能なオブジェクトに対してトレーニングされたターゲット検出器に依存しており、そのトレーニングに必要な人間の注視データが使用できないため、その適用範囲が限られる。
・そのため、ZeroGazeという新しいタスクを提案し、以前に検索されたことのないオブジェクトに対して視線が予測される。
・新しいモデルであるGazeformerを開発し、ZeroGaze問題を解決する。
・既存の方法はオブジェクト検出モジュールを使用するが、Gazeformerは自然言語モデルを使用し、スキャンパス予測において意味的な類似性を活用する。
・トランスフォーマーをベースとしたエンコーダーデコーダーアーキテクチャを使用する。
・GazeformerはZeroGaze設定において他のモデルよりも大幅に優れており、ターゲットが存在する検索タスクとターゲットが存在しない検索タスクの標準的な視線予測においても、既存のターゲット検出モデルよりも優れている。
・Gazeformerは、性能が向上しただけでなく、特定のターゲットが存在する視覚的検索モデルの最新技術よりも5倍以上高速である。

要約(オリジナル)

Predicting human gaze is important in Human-Computer Interaction (HCI). However, to practically serve HCI applications, gaze prediction models must be scalable, fast, and accurate in their spatial and temporal gaze predictions. Recent scanpath prediction models focus on goal-directed attention (search). Such models are limited in their application due to a common approach relying on trained target detectors for all possible objects, and the availability of human gaze data for their training (both not scalable). In response, we pose a new task called ZeroGaze, a new variant of zero-shot learning where gaze is predicted for never-before-searched objects, and we develop a novel model, Gazeformer, to solve the ZeroGaze problem. In contrast to existing methods using object detector modules, Gazeformer encodes the target using a natural language model, thus leveraging semantic similarities in scanpath prediction. We use a transformer-based encoder-decoder architecture because transformers are particularly useful for generating contextual representations. Gazeformer surpasses other models by a large margin on the ZeroGaze setting. It also outperforms existing target-detection models on standard gaze prediction for both target-present and target-absent search tasks. In addition to its improved performance, Gazeformer is more than five times faster than the state-of-the-art target-present visual search model.

arxiv情報

著者 Sounak Mondal,Zhibo Yang,Seoyoung Ahn,Dimitris Samaras,Gregory Zelinsky,Minh Hoai
発行日 2023-05-02 13:37:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク