CUDA-GHR: Controllable Unsupervised Domain Adaptation for Gaze and Head Redirection

要約

視線と頭のポーズの推定モデルの堅牢性は、ラベル付けされたデータの量に大きく依存します。
最近、生成モデリングは、写真のようにリアルな画像を生成する優れた結果を示しており、ラベル付きデータの必要性を軽減できます。
ただし、このような生成モデルを新しいドメインに採用しながら、視線や頭のポーズの方向など、さまざまな画像属性をきめ細かく制御する機能を維持することは、困難な問題でした。
この論文では、CUDA-GHR を提案します。CUDA-GHR は、人の外観に関連する要因を維持しながら、視線と頭のポーズの方向をきめ細かく制御できる教師なしドメイン適応フレームワークです。
私たちのフレームワークは、ラベルが豊富なソースドメインとラベルのないターゲットドメインを利用して、新しいドメインに適応し、外観、視線方向、頭の向きなどの画像属性を解きほぐすことを同時に学習します。
ベンチマーク データセットに関する広範な実験は、提案された方法が定量的評価と定性的評価の両方で最先端の手法よりも優れていることを示しています。
さらに、ターゲットドメインで生成された画像とラベルのペアが効果的に知識を伝達し、下流のタスクのパフォーマンスを向上させることを示します。

要約(オリジナル)

The robustness of gaze and head pose estimation models is highly dependent on the amount of labeled data. Recently, generative modeling has shown excellent results in generating photo-realistic images, which can alleviate the need for labeled data. However, adopting such generative models to new domains while maintaining their ability to provide fine-grained control over different image attributes, e.g., gaze and head pose directions, has been a challenging problem. This paper proposes CUDA-GHR, an unsupervised domain adaptation framework that enables fine-grained control over gaze and head pose directions while preserving the appearance-related factors of the person. Our framework simultaneously learns to adapt to new domains and disentangle image attributes such as appearance, gaze direction, and head orientation by utilizing a label-rich source domain and an unlabeled target domain. Extensive experiments on the benchmarking datasets show that the proposed method can outperform state-of-the-art techniques on both quantitative and qualitative evaluations. Furthermore, we show that the generated image-label pairs in the target domain effectively transfer knowledge and boost the downstream tasks’ performance.

arxiv情報

著者 Swati Jindal,Xin Eric Wang
発行日 2022-08-17 16:11:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク