MGTR: End-to-End Mutual Gaze Detection with Transformer

要約

人の視線や視線は私たちの日常生活のいたるところに存在しており、相互の視線を検出することは人間の社会的場面を理解する上で非常に重要です。
現在の相互視線検出方法は、2 段階のパイプラインによって推論速度が制限され、第 2 段階のパフォーマンスが第 1 段階の影響を受ける 2 段階の方法に焦点を当てています。
この論文では、Mutual Gaze TRansformerまたはMGTRと呼ばれる新しい1段階の相互視線検出フレームワークを提案して、相互視線検出をエンドツーエンドで実行します。
相互視線インスタンス トリプルを設計することにより、MGTR は各人間の頭のバウンディング ボックスを検出し、同時に全体的な画像情報に基づいて相互視線関係を推測できるため、プロセス全体がシンプルに合理化されます。
2 つの相互視線データセットに関する実験結果は、私たちの方法がパフォーマンスを失うことなく相互視線検出プロセスを加速できることを示しています。
アブレーション研究は、MGTR のさまざまなコンポーネントが画像内のさまざまなレベルのセマンティック情報をキャプチャできることを示しています。
コードは https://github.com/Gmbition/MGTR で入手できます

要約(オリジナル)

People’s looking at each other or mutual gaze is ubiquitous in our daily interactions, and detecting mutual gaze is of great significance for understanding human social scenes. Current mutual gaze detection methods focus on two-stage methods, whose inference speed is limited by the two-stage pipeline and the performance in the second stage is affected by the first one. In this paper, we propose a novel one-stage mutual gaze detection framework called Mutual Gaze TRansformer or MGTR to perform mutual gaze detection in an end-to-end manner. By designing mutual gaze instance triples, MGTR can detect each human head bounding box and simultaneously infer mutual gaze relationship based on global image information, which streamlines the whole process with simplicity. Experimental results on two mutual gaze datasets show that our method is able to accelerate mutual gaze detection process without losing performance. Ablation study shows that different components of MGTR can capture different levels of semantic information in images. Code is available at https://github.com/Gmbition/MGTR

arxiv情報

著者 Hang Guo,Zhengxi Hu,Jingtai Liu
発行日 2022-09-22 11:26:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク