Source-Free and Image-Only Unsupervised Domain Adaptation for Category Level Object Pose Estimation

要約

適応中にソースドメインデータや 3D アノテーションにアクセスせずに、RGB 画像のみからターゲットドメインへのソースフリーの教師なしカテゴリレベルの姿勢推定の問題を検討します。
実世界の 3D データと対応する画像を収集して注釈を付けることは、手間がかかり、高価ですが、避けられないプロセスです。これは、3D ポーズ ドメイン適応方法でもターゲット ドメインの 3D データが必要であるためです。
3DUDA を紹介します。これは、3D または深度データがなくても、迷惑なターゲット ドメインに適応できる方法です。
私たちの重要な洞察は、特定のオブジェクトのサブパーツがドメイン外 (OOD) シナリオ全体にわたって安定したままであり、これらの不変のサブコンポーネントを戦略的に利用して効果的なモデルを更新できるという観察から生まれています。
オブジェクト カテゴリを単純な直方体メッシュとして表し、差分レンダリングを使用して学習された各メッシュ頂点でモデル化された神経特徴活性化の生成モデルを利用します。
個々の局所的に堅牢なメッシュ頂点フィーチャに焦点を当て、グローバル ポーズが正しくない場合でも、ターゲット ドメイン内の対応するフィーチャへの近接性に基づいてそれらを繰り返し更新します。
次に、頂点特徴と特徴抽出器の更新を交互に行いながら、モデルは EM 方式でトレーニングされます。
私たちの方法は、マイルドな仮定の下でグローバルな擬似ラベル付きデータセットの微調整をシミュレートし、ターゲットドメインに漸近的に収束することを示します。
実際の迷惑行為、合成ノイズ、オクルージョンを組み合わせた複雑で極端な UDA セットアップを含む広範な経験的検証を通じて、ドメイン シフトの課題に対処し、姿勢推定の精度を大幅に向上させるシンプルなアプローチの有効性を実証しました。

要約(オリジナル)

We consider the problem of source-free unsupervised category-level pose estimation from only RGB images to a target domain without any access to source domain data or 3D annotations during adaptation. Collecting and annotating real-world 3D data and corresponding images is laborious, expensive, yet unavoidable process, since even 3D pose domain adaptation methods require 3D data in the target domain. We introduce 3DUDA, a method capable of adapting to a nuisance-ridden target domain without 3D or depth data. Our key insight stems from the observation that specific object subparts remain stable across out-of-domain (OOD) scenarios, enabling strategic utilization of these invariant subcomponents for effective model updates. We represent object categories as simple cuboid meshes, and harness a generative model of neural feature activations modeled at each mesh vertex learnt using differential rendering. We focus on individual locally robust mesh vertex features and iteratively update them based on their proximity to corresponding features in the target domain even when the global pose is not correct. Our model is then trained in an EM fashion, alternating between updating the vertex features and the feature extractor. We show that our method simulates fine-tuning on a global pseudo-labeled dataset under mild assumptions, which converges to the target domain asymptotically. Through extensive empirical validation, including a complex extreme UDA setup which combines real nuisances, synthetic noise, and occlusion, we demonstrate the potency of our simple approach in addressing the domain shift challenge and significantly improving pose estimation accuracy.

arxiv情報

著者 Prakhar Kaushik,Aayush Mishra,Adam Kortylewski,Alan Yuille
発行日 2024-01-19 17:48:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク