Listen to Look into the Future: Audio-Visual Egocentric Gaze Anticipation

要約

自己中心的な視線の予測は、拡張現実の新たな機能の重要な構成要素として機能します。
特に、視線の行動は、日常の活動中に視覚的な合図と音声信号の両方によって引き起こされます。
この観察に動機付けられて、私たちは自己中心的な視線予測のためにビデオとオーディオの両方のモダリティを活用する最初のモデルを紹介します。
具体的には、空間的および時間的次元で視聴覚相関を個別にキャプチャするために 2 つのモジュールを採用し、融合モジュールからの再重み付けされた視聴覚特徴にコントラスト損失を適用する、コントラスト時空間分離 (CSTS) 融合アプローチを提案します。
表現学習。
当社では、モデル設計を検証するために、Ego4D と Aria という 2 つの自己中心的なビデオ データセットを使用して、広範なアブレーション研究と徹底的な分析を実施しています。
また、私たちのモデルが従来の最先端の手法より少なくとも +1.9% および +1.6% 優れていることも実証しました。
さらに、視線予測の結果を示す視覚化を提供し、視聴覚表現の学習に関する追加の洞察を提供します。

要約(オリジナル)

Egocentric gaze anticipation serves as a key building block for the emerging capability of Augmented Reality. Notably, gaze behavior is driven by both visual cues and audio signals during daily activities. Motivated by this observation, we introduce the first model that leverages both the video and audio modalities for egocentric gaze anticipation. Specifically, we propose a Contrastive Spatial-Temporal Separable (CSTS) fusion approach that adopts two modules to separately capture audio-visual correlations in spatial and temporal dimensions, and applies a contrastive loss on the re-weighted audio-visual features from fusion modules for representation learning. We conduct extensive ablation studies and thorough analysis using two egocentric video datasets: Ego4D and Aria, to validate our model design. We also demonstrate our model outperforms prior state-of-the-art methods by at least +1.9% and +1.6%. Moreover, we provide visualizations to show the gaze anticipation results and provide additional insights into audio-visual representation learning.

arxiv情報

著者 Bolin Lai,Fiona Ryan,Wenqi Jia,Miao Liu,James M. Rehg
発行日 2023-12-07 18:04:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク