A Novel Framework for Multi-Person Temporal Gaze Following and Social Gaze Prediction

要約

視線追跡と社会的視線予測は、人間のコミュニケーション行動、意図、社会的相互作用についての洞察を提供する基本的なタスクです。
これまでのアプローチのほとんどは、他の社会的視線タスクに一般化しない高度に特殊化された社会的視線モデルを設計するか、社会的視線推論を視線追従タスクのアドホックな後処理として考慮することによって、これらのタスクを個別に扱っていました。
さらに、視線追跡アプローチの大部分は、一度に 1 人の人物のみを処理できる静的モデルを提案しているため、社会的相互作用や時間的ダイナミクスを活用できません。
この論文では、これらの制限に対処し、シーン内のすべての人々の視線ターゲットと社会的視線ラベルを共同で予測するための新しいフレームワークを紹介します。
このフレームワークは次の要素で構成されます。(i) 画像トークンに加えて、各個人に関連する視線情報を捕捉する個人固有のトークンを処理する、一時的なトランスフォーマー ベースのアーキテクチャ。
(ii) 複数の視線追跡およびソーシャル視線データセットにわたる注釈タイプを統合する新しいデータセット VSGaze。
VSGaze でトレーニングされたモデルがすべてのタスクに共同で対処でき、複数人の視線追跡と社会的視線予測において最先端の結果が得られることを示します。

要約(オリジナル)

Gaze following and social gaze prediction are fundamental tasks providing insights into human communication behaviors, intent, and social interactions. Most previous approaches addressed these tasks separately, either by designing highly specialized social gaze models that do not generalize to other social gaze tasks or by considering social gaze inference as an ad-hoc post-processing of the gaze following task. Furthermore, the vast majority of gaze following approaches have proposed static models that can handle only one person at a time, therefore failing to take advantage of social interactions and temporal dynamics. In this paper, we address these limitations and introduce a novel framework to jointly predict the gaze target and social gaze label for all people in the scene. The framework comprises of: (i) a temporal, transformer-based architecture that, in addition to image tokens, handles person-specific tokens capturing the gaze information related to each individual; (ii) a new dataset, VSGaze, that unifies annotation types across multiple gaze following and social gaze datasets. We show that our model trained on VSGaze can address all tasks jointly, and achieves state-of-the-art results for multi-person gaze following and social gaze prediction.

arxiv情報

著者 Anshul Gupta,Samy Tafasca,Arya Farkhondeh,Pierre Vuillecard,Jean-Marc Odobez
発行日 2024-03-15 17:50:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク