Enhancing 3D Gaze Estimation in the Wild using Weak Supervision with Gaze Following Labels

要約

制約されていない現実世界環境での正確な3D視線推定は、外観、ヘッドポーズ、閉塞、および野生の3D視線データセットの限られた利用可能性の変動により、依然として重要な課題です。
これらの課題に対処するために、私たちは、新規自己訓練の弱く監視された視線推定フレームワーク(ST-WSGE)を紹介します。
この2段階の学習フレームワークは、外観、自然シーン、視線分布の豊富なバリエーションを提供し、3D擬似ラベルを生成し、モデルの一般化を強化するためのアプローチを提案する、視線後のデータなど、多様な2D視線データセットを活用します。
さらに、画像やビデオ用に個別に設計された従来のモダリティ固有のモデルは、利用可能なトレーニングデータの効果的な使用を制限します。
これを克服するために、画像データセットとビデオデータセットの両方から静的および動的な視線情報を同時に学習できるモダリティと動的なアーキテクチャである視線変圧器(GAT)を提案します。
3Dビデオデータセットとタスクに続く視線からの2D Gazeターゲットラベルを組み合わせることにより、私たちのアプローチは、次の重要な貢献を達成します。(i)Gaze360やGFIEなどの制約のないベンチマークのドメイン内およびクロスドメインの一般化の重要な改善、ビデオ視線の推定における顕著なマダルのゲインを備えています。
(ii)正面の顔方法と比較して、MpiifacegazeやGaze360などのデータセットでの優れたクロスドメイン性能。
コードと事前に訓練されたモデルがコミュニティにリリースされます。

要約(オリジナル)

Accurate 3D gaze estimation in unconstrained real-world environments remains a significant challenge due to variations in appearance, head pose, occlusion, and the limited availability of in-the-wild 3D gaze datasets. To address these challenges, we introduce a novel Self-Training Weakly-Supervised Gaze Estimation framework (ST-WSGE). This two-stage learning framework leverages diverse 2D gaze datasets, such as gaze-following data, which offer rich variations in appearances, natural scenes, and gaze distributions, and proposes an approach to generate 3D pseudo-labels and enhance model generalization. Furthermore, traditional modality-specific models, designed separately for images or videos, limit the effective use of available training data. To overcome this, we propose the Gaze Transformer (GaT), a modality-agnostic architecture capable of simultaneously learning static and dynamic gaze information from both image and video datasets. By combining 3D video datasets with 2D gaze target labels from gaze following tasks, our approach achieves the following key contributions: (i) Significant state-of-the-art improvements in within-domain and cross-domain generalization on unconstrained benchmarks like Gaze360 and GFIE, with notable cross-modal gains in video gaze estimation; (ii) Superior cross-domain performance on datasets such as MPIIFaceGaze and Gaze360 compared to frontal face methods. Code and pre-trained models will be released to the community.

arxiv情報

著者 Pierre Vuillecard,Jean-Marc Odobez
発行日 2025-02-27 16:35:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク