要約
最新の深層学習ベースのマルチビュー3D再構成手法では、RNNまたは融合モジュールを使用して、複数の画像を個別にエンコードした後、それらの情報を結合します。
これらの2つの別々のステップは接続が緩く、ビュー間で情報を簡単に共有することはできません。
すべての計算段階でビュー間で情報を共有するためにアテンションレイヤーを使用するボクセルベースの3D再構成用のトランスモデルであるLegoFormerを提案します。
さらに、各ボクセルを個別に予測する代わりに、一連の低ランクの分解係数を使用して出力をパラメーター化することを提案します。
この再定式化により、オブジェクトを一連の独立した規則的な構造として予測し、集約して最終的な再構成を取得できます。
ShapeNetで実施された実験は、自己注意レイヤーのおかげで解釈可能性が向上している一方で、最先端のモデルの競争力のあるパフォーマンスを示しています。
また、実際のデータに対して有望な一般化の結果を示します。
要約(オリジナル)
Most modern deep learning-based multi-view 3D reconstruction techniques use RNNs or fusion modules to combine information from multiple images after independently encoding them. These two separate steps have loose connections and do not allow easy information sharing among views. We propose LegoFormer, a transformer model for voxel-based 3D reconstruction that uses the attention layers to share information among views during all computational stages. Moreover, instead of predicting each voxel independently, we propose to parametrize the output with a series of low-rank decomposition factors. This reformulation allows the prediction of an object as a set of independent regular structures then aggregated to obtain the final reconstruction. Experiments conducted on ShapeNet demonstrate the competitive performance of our model with respect to the state of the art while having increased interpretability thanks to the self-attention layers. We also show promising generalization results to real data.
arxiv情報
著者 | Farid Yagubbayli,Yida Wang,Alessio Tonioni,Federico Tombari |
発行日 | 2022-07-08 16:49:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google