End-to-end Video Gaze Estimation via Capturing Head-face-eye Spatial-temporal Interaction Context

要約

このレターでは、頭、顔、目の間の時空間相互作用コンテキストをエンドツーエンドの学習方法でキャプチャすることで、ビデオ視線推定を容易にする新しい方法、Multi-Clue Gaze (MCGaze) を提案します。
まだ十分に心配しています。
MCGaze の主な利点は、最適なパフォーマンスを追求するための共同最適化により、頭、顔、目の手掛かり位置特定タスクを 1 ステップの方法で共同で解決して視線推定を行うことができることです。
この際、頭、顔、目の手がかりの間で時空間的な文脈の交換が起こります。
したがって、さまざまなクエリからの特徴を融合することによって得られる最終的な視線は、頭と顔からのグローバルな手がかりと、目からの局所的な手がかりを同時に認識することができ、本質的にパフォーマンスを活用します。
また、ワンステップ走行方式により高い走行効率も確保しています。
挑戦的な Gaze360 データセットの実験により、私たちの提案の優位性が検証されました。
ソースコードは https://github.com/zgchen33/MCGaze で公開されます。

要約(オリジナル)

In this letter, we propose a new method, Multi-Clue Gaze (MCGaze), to facilitate video gaze estimation via capturing spatial-temporal interaction context among head, face, and eye in an end-to-end learning way, which has not been well concerned yet. The main advantage of MCGaze is that the tasks of clue localization of head, face, and eye can be solved jointly for gaze estimation in a one-step way, with joint optimization to seek optimal performance. During this, spatial-temporal context exchange happens among the clues on the head, face, and eye. Accordingly, the final gazes obtained by fusing features from various queries can be aware of global clues from heads and faces, and local clues from eyes simultaneously, which essentially leverages performance. Meanwhile, the one-step running way also ensures high running efficiency. Experiments on the challenging Gaze360 dataset verify the superiority of our proposition. The source code will be released at https://github.com/zgchen33/MCGaze.

arxiv情報

著者 Yiran Guan,Zhuoguang Chen,Wenzheng Zeng,Zhiguo Cao,Yang Xiao
発行日 2023-11-01 09:13:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク