3D Equivariant Pose Regression via Direct Wigner-D Harmonics Prediction

要約

単一画像姿勢推定と呼ばれる、画像内のオブジェクトの 3D 方向を決定することは、3D ビジョン アプリケーションでは重要なタスクです。
既存の方法は通常、オイラー角または四元数を使用して空間領域でパラメータ化された 3D 回転を学習しますが、これらの表現では不連続性や特異点が生じることがよくあります。
SO(3) 等変ネットワークでは、データ効率の高い学習による姿勢パターンの構造化されたキャプチャが可能ですが、空間領域でのパラメータ化はそのアーキテクチャ、特に計算効率を高めるために周波数領域で動作する球面 CNN と互換性がありません。
これらの問題を克服するために、球面 CNN の動作に合わせて 3D 回転回帰の Wigner-D 係数を直接予測する周波数領域アプローチを提案します。
当社の SO(3) 等変姿勢高調波予測子は、空間パラメータ化の制限を克服し、任意の回転下でも一貫した姿勢推定を保証します。
周波数領域回帰損失でトレーニングされた当社のメソッドは、ModelNet10-SO(3) や PASCAL3D+ などのベンチマークで最先端の結果を達成し、精度、堅牢性、データ効率が大幅に向上しました。

要約(オリジナル)

Determining the 3D orientations of an object in an image, known as single-image pose estimation, is a crucial task in 3D vision applications. Existing methods typically learn 3D rotations parametrized in the spatial domain using Euler angles or quaternions, but these representations often introduce discontinuities and singularities. SO(3)-equivariant networks enable the structured capture of pose patterns with data-efficient learning, but the parametrizations in spatial domain are incompatible with their architecture, particularly spherical CNNs, which operate in the frequency domain to enhance computational efficiency. To overcome these issues, we propose a frequency-domain approach that directly predicts Wigner-D coefficients for 3D rotation regression, aligning with the operations of spherical CNNs. Our SO(3)-equivariant pose harmonics predictor overcomes the limitations of spatial parameterizations, ensuring consistent pose estimation under arbitrary rotations. Trained with a frequency-domain regression loss, our method achieves state-of-the-art results on benchmarks such as ModelNet10-SO(3) and PASCAL3D+, with significant improvements in accuracy, robustness, and data efficiency.

arxiv情報

著者 Jongmin Lee,Minsu Cho
発行日 2024-11-04 10:21:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO, eess.IV パーマリンク