Weakly-Supervised Gaze Estimation from Synthetic Views

要約

3次元視線推定は、入力画像と視線ベクトルまたはその球座標との間の直接的なマッピングを学習するものとして、最も頻繁に取り組まれている。近年、顔、体、手のポーズ推定は、学習対象を少数のポーズパラメータから高密度な3次元座標に修正することで利益を得ることが示されている。本研究では、この観測を活用し、3D視線推定を3D眼球メッシュの回帰として取り組むことを提案する。我々は、既存の視線データセットに剛体3D眼球テンプレートをフィッティングすることで互換性のあるグランドトゥルースの不在を克服し、広く利用可能な野生の顔画像を利用することで汎化性を向上させることを提案する。この目的のために、我々は任意の顔画像から頑健な視線疑似ラベルを取得する自動パイプラインを提案し、学習中にその効果をバランスさせるための多視点監視フレームワークを設計する。我々の実験では、本手法は、学習用のグランドトゥルースデータがない場合、データセット間の視線推定において、最新技術と比較して30%、ある場合は7%の改善を達成した。我々のプロジェクトは、https://github.com/Vagver/dense3Deyes で一般に公開されています。

要約(オリジナル)

3D gaze estimation is most often tackled as learning a direct mapping between input images and the gaze vector or its spherical coordinates. Recently, it has been shown that pose estimation of the face, body and hands benefits from revising the learning target from few pose parameters to dense 3D coordinates. In this work, we leverage this observation and propose to tackle 3D gaze estimation as regression of 3D eye meshes. We overcome the absence of compatible ground truth by fitting a rigid 3D eyeball template on existing gaze datasets and propose to improve generalization by making use of widely available in-the-wild face images. To this end, we propose an automatic pipeline to retrieve robust gaze pseudo-labels from arbitrary face images and design a multi-view supervision framework to balance their effect during training. In our experiments, our method achieves improvement of 30% compared to state-of-the-art in cross-dataset gaze estimation, when no ground truth data are available for training, and 7% when they are. We make our project publicly available at https://github.com/Vagver/dense3Deyes.

arxiv情報

著者 Evangelos Ververas,Polydefkis Gkagkos,Jiankang Deng,Jia Guo,Michail Christos Doukas,Stefanos Zafeiriou
発行日 2022-12-06 14:15:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク