要約
ヒューマン コンピュータ インタラクション (HCI) では、人間の視線を予測することが重要です。
ただし、実際に HCI アプリケーションにサービスを提供するには、視線予測モデルは、空間的および時間的視線予測においてスケーラブルで、高速で、正確でなければなりません。
最近のスキャンパス予測モデルは、目標指向の注意 (検索) に焦点を当てています。
このようなモデルは、可能なすべてのオブジェクトのトレーニング済みターゲット検出器に依存する一般的なアプローチと、トレーニング用の人間の視線データの可用性 (両方ともスケーラブルではありません) により、アプリケーションが制限されます。
これに対応して、ZeroGaze と呼ばれる新しいタスクを提案します。これは、これまでに検索されたことのないオブジェクトの視線が予測されるゼロショット学習の新しいバリアントであり、ZeroGaze 問題を解決するための新しいモデル Gazeformer を開発します。
オブジェクト検出モジュールを使用する既存の方法とは対照的に、Gazeformer は自然言語モデルを使用してターゲットをエンコードするため、スキャンパス予測で意味的な類似性を活用します。
トランスフォーマーはコンテキスト表現の生成に特に役立つため、トランスフォーマー ベースのエンコーダー/デコーダー アーキテクチャを使用します。
Gazeformer は、ZeroGaze 設定で他のモデルを大幅に上回っています。
また、ターゲットが存在する場合とターゲットが存在しない場合の両方の検索タスクの標準的な視線予測で、既存のターゲット検出モデルよりも優れています。
パフォーマンスの向上に加えて、Gazeformer は最先端のターゲット存在ビジュアル検索モデルよりも 5 倍以上高速です。
要約(オリジナル)
Predicting human gaze is important in Human-Computer Interaction (HCI). However, to practically serve HCI applications, gaze prediction models must be scalable, fast, and accurate in their spatial and temporal gaze predictions. Recent scanpath prediction models focus on goal-directed attention (search). Such models are limited in their application due to a common approach relying on trained target detectors for all possible objects, and the availability of human gaze data for their training (both not scalable). In response, we pose a new task called ZeroGaze, a new variant of zero-shot learning where gaze is predicted for never-before-searched objects, and we develop a novel model, Gazeformer, to solve the ZeroGaze problem. In contrast to existing methods using object detector modules, Gazeformer encodes the target using a natural language model, thus leveraging semantic similarities in scanpath prediction. We use a transformer-based encoder-decoder architecture because transformers are particularly useful for generating contextual representations. Gazeformer surpasses other models by a large margin on the ZeroGaze setting. It also outperforms existing target-detection models on standard gaze prediction for both target-present and target-absent search tasks. In addition to its improved performance, Gazeformer is more than five times faster than the state-of-the-art target-present visual search model.
arxiv情報
著者 | Sounak Mondal,Zhibo Yang,Seoyoung Ahn,Dimitris Samaras,Gregory Zelinsky,Minh Hoai |
発行日 | 2023-03-27 15:02:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google