A Modular Multimodal Architecture for Gaze Target Prediction: Application to Privacy-Sensitive Settings

要約

人がどこを見ているのかを予測することは複雑な作業であり、障害物を検出するには、人の視線やシーンの内容だけでなく、3D シーンの構造やその人の状況 (操作しているか? 他人と交流しているか観察しているか? 注意深いか?) も理解する必要があります。
人間が他の人を観察するときに通常持つ視線や注意を事前に適用します。
この論文では、深度や姿勢などの明示的に導出されたマルチモーダル キューを活用することで、そのような事前分布の特定と活用がより効果的に達成できるという仮説を立てています。
したがって、我々は、注意メカニズムを使用してこれらの手がかりを組み合わせることができるモジュール式マルチモーダルアーキテクチャを提案します。
このアーキテクチャは、当然のことながら、個人を特定できる情報を公開できない、監視や医療などのプライバシーに敏感な状況でも悪用される可能性があります。
当社は、GazeFollow および VideoAttendantTarget のパブリック データセットに対して広範な実験を実行し、最先端のパフォーマンスを取得し、プライバシー設定のケースで非常に競争力のある結果を実証しています。

要約(オリジナル)

Predicting where a person is looking is a complex task, requiring to understand not only the person’s gaze and scene content, but also the 3D scene structure and the person’s situation (are they manipulating? interacting or observing others? attentive?) to detect obstructions in the line of sight or apply attention priors that humans typically have when observing others. In this paper, we hypothesize that identifying and leveraging such priors can be better achieved through the exploitation of explicitly derived multimodal cues such as depth and pose. We thus propose a modular multimodal architecture allowing to combine these cues using an attention mechanism. The architecture can naturally be exploited in privacy-sensitive situations such as surveillance and health, where personally identifiable information cannot be released. We perform extensive experiments on the GazeFollow and VideoAttentionTarget public datasets, obtaining state-of-the-art performance and demonstrating very competitive results in the privacy setting case.

arxiv情報

著者 Anshul Gupta,Samy Tafasca,Jean-Marc Odobez
発行日 2023-07-11 10:30:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク