ZeroMesh: Zero-shot Single-view 3D Mesh Reconstruction

要約

シングルビュー3Dオブジェクトの再構成は、シングルビューRGB画像から3D形状を復元することを目的とした基本的かつ挑戦的なコンピュータビジョンタスクである。既存の深層学習ベースの再構成手法の多くは、同じカテゴリで学習・評価されており、学習中に見られない新規カテゴリからのオブジェクトを扱う際にはうまく機能しない。この問題に着目し、本論文では、未見のカテゴリに対するモデルの汎化を研究し、モデルが文字通りオブジェクトを再構成することを促すために、ゼロショットシングルビュー3Dメッシュ再構成に取り組みます。具体的には、再構成におけるカテゴリ境界を破るために、エンドツーエンドの2段階ネットワークであるZeroMeshを提案する。まず、複雑な画像からメッシュへのマッピングを、画像から点へのマッピングと点からメッシュへのマッピングの2つに分解し、後者は主に幾何学的な問題であり、物体カテゴリにあまり依存しないことを示す。次に、2次元および3次元特徴空間における局所特徴サンプリング戦略を考案し、物体間で共有される局所的な形状を捉えることで、モデルの汎化性を向上させる。第三に、従来の点から点への監視とは別に、表面生成プロセスを監視するためにマルチビューシルエット損失を導入し、追加の正則化を提供し、さらにオーバーフィッティング問題を緩和する。実験結果より、本手法はShapeNetとPix3Dにおける様々なシナリオと様々な指標において、特に新規オブジェクトに対して、既存作品を大幅に上回る性能を示すことが分かった。

要約(オリジナル)

Single-view 3D object reconstruction is a fundamental and challenging computer vision task that aims at recovering 3D shapes from single-view RGB images. Most existing deep learning based reconstruction methods are trained and evaluated on the same categories, and they cannot work well when handling objects from novel categories that are not seen during training. Focusing on this issue, this paper tackles Zero-shot Single-view 3D Mesh Reconstruction, to study the model generalization on unseen categories and encourage models to reconstruct objects literally. Specifically, we propose an end-to-end two-stage network, ZeroMesh, to break the category boundaries in reconstruction. Firstly, we factorize the complicated image-to-mesh mapping into two simpler mappings, i.e., image-to-point mapping and point-to-mesh mapping, while the latter is mainly a geometric problem and less dependent on object categories. Secondly, we devise a local feature sampling strategy in 2D and 3D feature spaces to capture the local geometry shared across objects to enhance model generalization. Thirdly, apart from the traditional point-to-point supervision, we introduce a multi-view silhouette loss to supervise the surface generation process, which provides additional regularization and further relieves the overfitting problem. The experimental results show that our method significantly outperforms the existing works on the ShapeNet and Pix3D under different scenarios and various metrics, especially for novel objects.

arxiv情報

著者 Xianghui Yang,Guosheng Lin,Luping Zhou
発行日 2022-08-04 14:13:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク