要約
最近のディープ ニューラル ネットワークの開発に伴い、外観に基づく視線推定は、同じドメイン内でのトレーニングとテストでかなりの成功を収めています。
ドメイン内タスクと比較して、異なるドメインの差異によりクロスドメインのパフォーマンスが大幅に低下し、現実世界のアプリケーションでの視線推定の導入が妨げられます。
すべての要素の中でも、頭の姿勢と視線の範囲が視線推定の最終的なパフォーマンスに重要な役割を果たすと考えられていますが、広範囲のデータを収集するにはコストがかかります。
この研究では、教師なしドメイン適応のためのトレーニング データ合成と視線推定モデルで構成される効果的なモデル トレーニング パイプラインを提案します。
提案されたデータ合成では、単一画像の 3D 再構成を利用して、3D 顔形状データセットを必要とせずに、ソース ドメインから頭部ポーズの範囲を拡大します。
合成画像と実際の画像の間の避けられないギャップを埋めるために、合成全面データに適した教師なしドメイン適応方法をさらに提案します。
我々は、視線関連の特徴を分離し、背景拡張一貫性損失を導入して合成ソースドメインの特性を利用するために、もつれを解くオートエンコーダネットワークを提案します。
包括的な実験を通じて、単眼で再構成された合成トレーニング データのみを使用するモデルが、ラベル範囲が広い実際のデータと同等のパフォーマンスを発揮できることを示します。
私たちが提案するドメイン適応アプローチは、複数のターゲット ドメインでのパフォーマンスをさらに向上させます。
コードとデータは \url{https://github.com/ut-vision/AdaptiveGaze} で入手できます。
要約(オリジナル)
Along with the recent development of deep neural networks, appearance-based gaze estimation has succeeded considerably when training and testing within the same domain. Compared to the within-domain task, the variance of different domains makes the cross-domain performance drop severely, preventing gaze estimation deployment in real-world applications. Among all the factors, ranges of head pose and gaze are believed to play a significant role in the final performance of gaze estimation, while collecting large ranges of data is expensive. This work proposes an effective model training pipeline consisting of a training data synthesis and a gaze estimation model for unsupervised domain adaptation. The proposed data synthesis leverages the single-image 3D reconstruction to expand the range of the head poses from the source domain without requiring a 3D facial shape dataset. To bridge the inevitable gap between synthetic and real images, we further propose an unsupervised domain adaptation method suitable for synthetic full-face data. We propose a disentangling autoencoder network to separate gaze-related features and introduce background augmentation consistency loss to utilize the characteristics of the synthetic source domain. Through comprehensive experiments, we show that the model only using monocular-reconstructed synthetic training data can perform comparably to real data with a large label range. Our proposed domain adaptation approach further improves the performance on multiple target domains. The code and data will be available at \url{https://github.com/ut-vision/AdaptiveGaze}.
arxiv情報
著者 | Jiawei Qin,Takuru Shimoyama,Xucong Zhang,Yusuke Sugano |
発行日 | 2023-05-25 15:15:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google