Toward Efficient Generalization in 3D Human Pose Estimation via a Canonical Domain Approach

要約

深い学習方法の最近の進歩により、3Dヒトポーズ推定(HPE)のパフォーマンスが大幅に向上しました。
ただし、ソースドメインとターゲットドメイン間のドメインギャップによって引き起こされるパフォーマンスの劣化は、一般化に対する大きな課題であり、特定の各ターゲットドメインの広範なデータ増強および/または微調整を必要とします。
この問題により効率的に対処するために、ソースドメインとターゲットドメインの両方を統一ドメインにマッピングする新しい標準ドメインアプローチを提案し、ターゲットドメインでの追加の微調整の必要性を軽減します。
標準ドメインを構築するために、標準化プロセスを導入して、2D-3Dのポーズ一貫性を保証し、2D-3Dポーズパターンを簡素化し、リフティングネットワークのより効率的なトレーニングを可能にする新しい標準的な2D-3Dポーズマッピングを生成します。
両方のドメインの標準化は、次の手順を通じて達成されます。(1)ソースドメインでは、リフティングネットワークが標準ドメイン内でトレーニングされています。
(2)ターゲットドメインでは、パースペクティブ投影と既知のカメラの内因性の特性を活用することにより、推論の前に入力2Dポーズが正規化されます。
その結果、トレーニングされたネットワークは、追加の微調整を必要とせずにターゲットドメインに直接適用できます。
さまざまなリフティングネットワークと公開されたデータセット(例:Human3.6M、FIT3D、MPI-INF-3DHPなど)で実施された実験は、提案された方法が同じデータボリュームを使用しながらデータセット全体で一般化能力を大幅に改善することを示しています。

要約(オリジナル)

Recent advancements in deep learning methods have significantly improved the performance of 3D Human Pose Estimation (HPE). However, performance degradation caused by domain gaps between source and target domains remains a major challenge to generalization, necessitating extensive data augmentation and/or fine-tuning for each specific target domain. To address this issue more efficiently, we propose a novel canonical domain approach that maps both the source and target domains into a unified canonical domain, alleviating the need for additional fine-tuning in the target domain. To construct the canonical domain, we introduce a canonicalization process to generate a novel canonical 2D-3D pose mapping that ensures 2D-3D pose consistency and simplifies 2D-3D pose patterns, enabling more efficient training of lifting networks. The canonicalization of both domains is achieved through the following steps: (1) in the source domain, the lifting network is trained within the canonical domain; (2) in the target domain, input 2D poses are canonicalized prior to inference by leveraging the properties of perspective projection and known camera intrinsics. Consequently, the trained network can be directly applied to the target domain without requiring additional fine-tuning. Experiments conducted with various lifting networks and publicly available datasets (e.g., Human3.6M, Fit3D, MPI-INF-3DHP) demonstrate that the proposed method substantially improves generalization capability across datasets while using the same data volume.

arxiv情報

著者 Hoosang Lee,Jeha Ryu
発行日 2025-01-27 15:39:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク