Equivariant Single View Pose Prediction Via Induced and Restricted Representations

要約

2 次元の画像から 3 次元の世界について学ぶことは、コンピューター ビジョンの基本的な問題です。
このようなタスクに最適なニューラル ネットワーク アーキテクチャは、オブジェクトを 3 次元で回転および移動できるという事実を利用して、新しい画像についての予測を行うことになります。
ただし、3 次元回転のグループには 2 次元平面上で自然な作用がないため、2 次元入力に SO(3) 等分散を課すことは困難です。
具体的には、SO(3) の要素が画像を平面外に回転させる可能性があります。
二次元画像から世界の三次元表現を学習するアルゴリズムは、SO(2) 等分散制約として定式化する特定の幾何学的一貫性特性を満たさなければならないことを示します。
SO(3) 上の SO(2) の誘導および制限された表現を使用して、これらの幾何学的一貫性制約を満たすアーキテクチャを構築および分類します。
私たちは、一貫性の制約を尊重するあらゆるアーキテクチャが私たちの構築のインスタンスとして実現できることを証明します。
3D 姿勢予測のために以前に提案された 3 つのニューラル アーキテクチャが、私たちの構築の特殊なケースであることを示します。
我々は、以前に検討された方法を学習可能に一般化した新しいアルゴリズムを提案します。
3 つの姿勢予測タスクでアーキテクチャをテストし、PASCAL3D+ と SYMSOL の両方の姿勢推定タスクで SOTA の結果を達成しました。

要約(オリジナル)

Learning about the three-dimensional world from two-dimensional images is a fundamental problem in computer vision. An ideal neural network architecture for such tasks would leverage the fact that objects can be rotated and translated in three dimensions to make predictions about novel images. However, imposing SO(3)-equivariance on two-dimensional inputs is difficult because the group of three-dimensional rotations does not have a natural action on the two-dimensional plane. Specifically, it is possible that an element of SO(3) will rotate an image out of plane. We show that an algorithm that learns a three-dimensional representation of the world from two dimensional images must satisfy certain geometric consistency properties which we formulate as SO(2)-equivariance constraints. We use the induced and restricted representations of SO(2) on SO(3) to construct and classify architectures which satisfy these geometric consistency constraints. We prove that any architecture which respects said consistency constraints can be realized as an instance of our construction. We show that three previously proposed neural architectures for 3D pose prediction are special cases of our construction. We propose a new algorithm that is a learnable generalization of previously considered methods. We test our architecture on three pose predictions task and achieve SOTA results on both the PASCAL3D+ and SYMSOL pose estimation tasks.

arxiv情報

著者 Owen Howell,David Klee,Ondrej Biza,Linfeng Zhao,Robin Walters
発行日 2023-07-07 16:30:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, math.GR パーマリンク