Leveraging 2D Masked Reconstruction for Domain Adaptation of 3D Pose Estimation

要約

RGBベースの3Dポーズ推定方法は、深い学習の開発と高品質の3Dポーズデータセットの出現により成功しています。
ただし、ほとんどの既存の方法は、分布がトレーニングデータとはほど遠い画像をテストするためにうまく動作しません。
ただし、ほとんどの既存の方法は、分布がトレーニングデータとはほど遠い画像をテストするためにうまく動作しません。
この問題は、トレーニング中に多様なデータを含めることで軽減される可能性がありますが、対応するラベル(つまり、3Dポーズ)でこのような多様なデータを収集することは重要ではありません。
このホワイトペーパーでは、マスクされた画像モデリング(MIM)フレームワークを介してラベル付きデータに加えて、非標識データを利用する3Dポーズ推定のために、監視されていないドメイン適応フレームワークを導入しました。
前景中心の再構築と注意の正則化は、非標識データの使用の有効性を高めるためにさらに提案されています。
実験は、特にクロスドメインシナリオを使用して、人間とハンドポーズの推定タスクのさまざまなデータセットで行われます。
すべてのデータセットで最先端の精度を達成することにより、当社の有効性を実証しました。

要約(オリジナル)

RGB-based 3D pose estimation methods have been successful with the development of deep learning and the emergence of high-quality 3D pose datasets. However, most existing methods do not operate well for testing images whose distribution is far from that of training data. However, most existing methods do not operate well for testing images whose distribution is far from that of training data. This problem might be alleviated by involving diverse data during training, however it is non-trivial to collect such diverse data with corresponding labels (i.e. 3D pose). In this paper, we introduced an unsupervised domain adaptation framework for 3D pose estimation that utilizes the unlabeled data in addition to labeled data via masked image modeling (MIM) framework. Foreground-centric reconstruction and attention regularization are further proposed to increase the effectiveness of unlabeled data usage. Experiments are conducted on the various datasets in human and hand pose estimation tasks, especially using the cross-domain scenario. We demonstrated the effectiveness of ours by achieving the state-of-the-art accuracy on all datasets.

arxiv情報

著者 Hansoo Park,Chanwoo Kim,Jihyeon Kim,Hoseong Cho,Nhat Nguyen Bao Truong,Taehwan Kim,Seungryul Baek
発行日 2025-02-25 13:56:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.CV, cs.LG パーマリンク