3DMiner: Discovering Shapes from Large-Scale Unannotated Image Datasets

要約

3DMiner は、困難を伴う大規模な注釈のない画像データセットから 3D 形状をマイニングするためのパイプラインです。
他の教師なし 3D 再構成手法とは異なり、十分な大きさのデータセット内に、形状は似ているものの、背景、テクスチャ、視点が異なるオブジェクトの画像が存在する必要があると想定しています。
私たちのアプローチは、自己教師あり画像表現の学習における最近の進歩を利用して、幾何学的に類似した形状を持つ画像をクラスター化し、それらの間の共通の画像対応関係を見つけます。
次に、これらの対応関係を利用して、バンドル調整の初期化として大まかなカメラ推定値を取得します。
最後に、すべての画像クラスターに対して、プログレッシブ バンドル調整再構成法を適用して、基礎となる形状を表す神経占有場を学習します。
この手順は、前のステップで導入されたいくつかのタイプのエラー (例: 間違ったカメラのポーズ、異なる形状を含む画像など) に対して堅牢であり、実際の画像の形状と姿勢の注釈を取得できることを示します。
Pix3D 椅子の画像を使用する場合、私たちの方法は、量的および質的に、最先端の教師なし 3D 再構成技術よりも大幅に優れた結果を生み出すことができます。
さらに、LAION-5B データセットの画像に存在する形状を再構成することで、3DMiner を野生のデータにどのように適用できるかを示します。
プロジェクトページ: https://ttchengab.github.io/3dminerOfficial

要約(オリジナル)

We present 3DMiner — a pipeline for mining 3D shapes from challenging large-scale unannotated image datasets. Unlike other unsupervised 3D reconstruction methods, we assume that, within a large-enough dataset, there must exist images of objects with similar shapes but varying backgrounds, textures, and viewpoints. Our approach leverages the recent advances in learning self-supervised image representations to cluster images with geometrically similar shapes and find common image correspondences between them. We then exploit these correspondences to obtain rough camera estimates as initialization for bundle-adjustment. Finally, for every image cluster, we apply a progressive bundle-adjusting reconstruction method to learn a neural occupancy field representing the underlying shape. We show that this procedure is robust to several types of errors introduced in previous steps (e.g., wrong camera poses, images containing dissimilar shapes, etc.), allowing us to obtain shape and pose annotations for images in-the-wild. When using images from Pix3D chairs, our method is capable of producing significantly better results than state-of-the-art unsupervised 3D reconstruction techniques, both quantitatively and qualitatively. Furthermore, we show how 3DMiner can be applied to in-the-wild data by reconstructing shapes present in images from the LAION-5B dataset. Project Page: https://ttchengab.github.io/3dminerOfficial

arxiv情報

著者 Ta-Ying Cheng,Matheus Gadelha,Soren Pirk,Thibault Groueix,Radomir Mech,Andrew Markham,Niki Trigoni
発行日 2023-10-29 23:08:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク