Image to Icosahedral Projection for $\mathrm{SO}(3)$ Object Reasoning from Single-View Images

要約

2D 画像に基づいて 3D オブジェクトを推論することは、オブジェクトをさまざまな方向から見ることによって外観が変化するため、困難です。
オブジェクト分類などのタスクは 3D 回転に対して不変であり、姿勢推定などのその他のタスクは同変です。
ただし、モデルの制約として等分散を課すことは、通常、2D 画像入力では不可能です。これは、面外のオブジェクトの回転で画像がどのように変化するかについてのアプリオリ モデルがないためです。
現在存在する唯一の $\mathrm{SO}(3)$-equivariant モデルは、2D 画像ではなく点群またはボクセルの入力を必要とします。
この論文では、入力画像の正二十面体への射影を学習することによって $\mathrm{SO(3)}$ を推論する正二十面体群畳み込みに基づく新しいアーキテクチャを提案します。
結果のモデルは、$\mathrm{SO}(3)$ の回転とほぼ同変です。
このモデルをオブジェクトの姿勢推定と形状分類タスクに適用し、合理的なベースラインよりも優れていることがわかりました。
プロジェクトのウェブサイト: \url{https://dmklee.github.io/image2icosahedral}

要約(オリジナル)

Reasoning about 3D objects based on 2D images is challenging due to variations in appearance caused by viewing the object from different orientations. Tasks such as object classification are invariant to 3D rotations and other such as pose estimation are equivariant. However, imposing equivariance as a model constraint is typically not possible with 2D image input because we do not have an a priori model of how the image changes under out-of-plane object rotations. The only $\mathrm{SO}(3)$-equivariant models that currently exist require point cloud or voxel input rather than 2D images. In this paper, we propose a novel architecture based on icosahedral group convolutions that reasons in $\mathrm{SO(3)}$ by learning a projection of the input image onto an icosahedron. The resulting model is approximately equivariant to rotation in $\mathrm{SO}(3)$. We apply this model to object pose estimation and shape classification tasks and find that it outperforms reasonable baselines. Project website: \url{https://dmklee.github.io/image2icosahedral}

arxiv情報

著者 David Klee,Ondrej Biza,Robert Platt,Robin Walters
発行日 2022-11-15 14:07:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク