要約
目に見えないドメインや野生の状況にうまく一般化する視線推定モデルを開発することは、既知の最善の解決策がない課題のままです。
これは主に、現実世界に存在する可能性のある顔、頭のポーズ、および環境条件の分布をカバーするグラウンド トゥルース データを取得することの難しさによるものです。
この作業では、インターネットで豊富に入手可能な任意のラベルのない顔画像から抽出した 3D ジオメトリ対応の視線擬似アノテーションに基づいて、一般的な視線推定モデルをトレーニングすることを提案します。
さらに、頭、体、手のポーズ推定は、密な 3D 座標予測として修正することで利益が得られるという観察結果を活用し、同様に視線推定を密な 3D 目のメッシュの回帰として表現します。
既存の視線データセットに剛体の 3D 眼球を適合させることで、互換性のあるグラウンド トゥルースの欠如を克服し、トレーニング中の疑似ラベルの効果のバランスをとるマルチビュー監視フレームワークを設計します。
視線の一般化のタスクでメソッドをテストします。グラウンド トゥルース データが利用できない場合、最新技術と比較して最大 $30\%$ の改善を示し、利用できる場合は最大 $10\%$ の改善を示します。
.
プロジェクト資料は研究目的で利用できるようになります。
要約(オリジナル)
Developing gaze estimation models that generalize well to unseen domains and in-the-wild conditions remains a challenge with no known best solution. This is mostly due to the difficulty of acquiring ground truth data that cover the distribution of possible faces, head poses and environmental conditions that exist in the real world. In this work, we propose to train general gaze estimation models based on 3D geometry-aware gaze pseudo-annotations which we extract from arbitrary unlabelled face images, which are abundantly available in the internet. Additionally, we leverage the observation that head, body and hand pose estimation benefit from revising them as dense 3D coordinate prediction, and similarly express gaze estimation as regression of dense 3D eye meshes. We overcome the absence of compatible ground truth by fitting rigid 3D eyeballs on existing gaze datasets and design a multi-view supervision framework to balance the effect of pseudo-labels during training. We test our method in the task of gaze generalization, in which we demonstrate improvement of up to $30\%$ compared to state-of-the-art when no ground truth data are available, and up to $10\%$ when they are. The project material will become available for research purposes.
arxiv情報
著者 | Evangelos Ververas,Polydefkis Gkagkos,Jiankang Deng,Michail Christos Doukas,Jia Guo,Stefanos Zafeiriou |
発行日 | 2023-03-28 15:57:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google