Image to Sphere: Learning Equivariant Features for Efficient Pose Prediction

要約

単一の画像からオブジェクトの姿勢を予測することは、重要ではありますが困難なコンピューター ビジョンの問題です。
単一点推定を予測する方法は、対称性を持つオブジェクトの姿勢をうまく予測できず、不確実性を表すことができません。
あるいは、$\mathrm{SO}(3)$ の方向の分布を予測する研究もあります。
ただし、そのようなモデルのトレーニングは、計算とサンプルの効率が悪い場合があります。
代わりに、画像ドメインから 3D 回転多様体への特徴の新しいマッピングを提案します。
我々の方法は、より効率的なサンプルである $\mathrm{SO}(3)$ 等変層を活用し、任意の解像度でサンプリングできる回転に対する分布を出力します。
オブジェクト指向予測でのメソッドの有効性を実証し、人気のある PASCAL3D+ データセットで最先端のパフォーマンスを達成します。
さらに、パラメーターや損失関数を変更することなく、この方法で複雑なオブジェクトの対称性をモデル化できることを示します。
コードは https://dmklee.github.io/image2sphere で入手できます。

要約(オリジナル)

Predicting the pose of objects from a single image is an important but difficult computer vision problem. Methods that predict a single point estimate do not predict the pose of objects with symmetries well and cannot represent uncertainty. Alternatively, some works predict a distribution over orientations in $\mathrm{SO}(3)$. However, training such models can be computation- and sample-inefficient. Instead, we propose a novel mapping of features from the image domain to the 3D rotation manifold. Our method then leverages $\mathrm{SO}(3)$ equivariant layers, which are more sample efficient, and outputs a distribution over rotations that can be sampled at arbitrary resolution. We demonstrate the effectiveness of our method at object orientation prediction, and achieve state-of-the-art performance on the popular PASCAL3D+ dataset. Moreover, we show that our method can model complex object symmetries, without any modifications to the parameters or loss function. Code is available at https://dmklee.github.io/image2sphere.

arxiv情報

著者 David M. Klee,Ondrej Biza,Robert Platt,Robin Walters
発行日 2023-02-27 16:23:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク