SE(3)-Equivariant Reconstruction from Light Field

要約

幾何学的コンピューター ビジョンの最近の進歩により、シーンをニューラル ラディアンス フィールドとしてキャプチャすることで、複数のビューからの再構成と新しいビューのレンダリングが大幅に進歩しました。
このようなアプローチは、再構成のパラダイムを変えましたが、大量のビューを必要とし、オブジェクト形状の優先順位を利用しません。
一方、深層学習は、単一の画像から形状を推測するために事前分布を使用する方法を示しています。
ただし、このようなアプローチでは、オブジェクトが正規のポーズで再構築されるか、トレーニング中にオブジェクトのポーズが既知であると想定する必要があります。
この論文では、カメラの相対的な姿勢が与えられた場合に、いくつかの画像から再構成するための等変事前確率を計算する方法の問題に対処します。
私たちの提案する再構成は、$SE(3)$-gauge equivariant です。これは、ワールド フレームの選択と同等であることを意味します。
これを達成するために、ライト フィールド処理に 2 つの新しい貢献を行います。ライト フィールド畳み込みを定義し、ビュー内の $SE(2)$ 畳み込みによってどのように近似できるかを示します。
扱いにくい;
ライト フィールドから $\mathbb{R}^3$ へのマップを設計します。これは、ワールド フレームの変換とビューの回転と同変です。
変換拡張を実行せずに、ロト変換されたデータセットで堅牢な結果を得ることにより、等分散性を示します。

要約(オリジナル)

Recent progress in geometric computer vision has shown significant advances in reconstruction and novel view rendering from multiple views by capturing the scene as a neural radiance field. Such approaches have changed the paradigm of reconstruction but need a plethora of views and do not make use of object shape priors. On the other hand, deep learning has shown how to use priors in order to infer shape from single images. Such approaches, though, require that the object is reconstructed in a canonical pose or assume that object pose is known during training. In this paper, we address the problem of how to compute equivariant priors for reconstruction from a few images, given the relative poses of the cameras. Our proposed reconstruction is $SE(3)$-gauge equivariant, meaning that it is equivariant to the choice of world frame. To achieve this, we make two novel contributions to light field processing: we define light field convolution and we show how it can be approximated by intra-view $SE(2)$ convolutions because the original light field convolution is computationally and memory-wise intractable; we design a map from the light field to $\mathbb{R}^3$ that is equivariant to the transformation of the world frame and to the rotation of the views. We demonstrate equivariance by obtaining robust results in roto-translated datasets without performing transformation augmentation.

arxiv情報

著者 Yinshuang Xu,Jiahui Lei,Kostas Daniilidis
発行日 2022-12-30 18:38:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク