Contrastive Representation Learning for Gaze Estimation

要約

自己教師あり学習 (SSL) は、コンピューター ビジョンの表現を学習するために普及しています。
特に、SSL は対照的な学習を利用して、さまざまな画像変換の下で視覚的表現が不変になるようにします。
一方、視線推定のタスクでは、さまざまな外観に対する不変性だけでなく、幾何学的変換に対する同等性も要求されます。
この作業では、Gaze Contrastive Learning (GazeCLR) という名前の、視線推定のための単純な対照表現学習フレームワークを提案します。
GazeCLR は、マルチビュー データを活用して等分散性を促進し、不変性学習の視線方向を変更しない選択されたデータ拡張技術に依存しています。
私たちの実験は、視線推定タスクのいくつかの設定に対する GazeCLR の有効性を示しています。
特に、私たちの結果は、GazeCLR がクロスドメインの視線推定のパフォーマンスを向上させ、17.2% の相対的な改善をもたらすことを示しています。
さらに、GazeCLR フレームワークは、少数ショット評価のための最先端の表現学習方法と競合します。
コードと事前トレーニング済みのモデルは、https://github.com/jswati31/gazeclr で入手できます。

要約(オリジナル)

Self-supervised learning (SSL) has become prevalent for learning representations in computer vision. Notably, SSL exploits contrastive learning to encourage visual representations to be invariant under various image transformations. The task of gaze estimation, on the other hand, demands not just invariance to various appearances but also equivariance to the geometric transformations. In this work, we propose a simple contrastive representation learning framework for gaze estimation, named Gaze Contrastive Learning (GazeCLR). GazeCLR exploits multi-view data to promote equivariance and relies on selected data augmentation techniques that do not alter gaze directions for invariance learning. Our experiments demonstrate the effectiveness of GazeCLR for several settings of the gaze estimation task. Particularly, our results show that GazeCLR improves the performance of cross-domain gaze estimation and yields as high as 17.2% relative improvement. Moreover, the GazeCLR framework is competitive with state-of-the-art representation learning methods for few-shot evaluation. The code and pre-trained models are available at https://github.com/jswati31/gazeclr.

arxiv情報

著者 Swati Jindal,Roberto Manduchi
発行日 2022-10-24 17:01:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク