要約
我々は、3Dオブジェクト中心の表現学習のための新しいフレームワークを提示する。我々のアプローチは、教師無しで、1枚の画像から複雑なシーンを個々のオブジェクトに効果的に分解する。この手法はスロットガイド付き体積オブジェクト輝度場(sVORF)と呼ばれ、教師なし3Dシーン分解を実行するためのガイダンスとして、体積オブジェクト輝度場とオブジェクトスロットを合成する。具体的には、sVORFは、変換モジュールを介して単一画像からオブジェクトスロットを取得し、ハイパーネットワークを用いてこれらのスロットを体積オブジェクト輝度場にマッピングし、オブジェクトスロットのガイダンスを用いてオブジェクト輝度場を3次元位置に合成する。さらに、sVORFは、学習中の小さなピクセルレンダリングにより、メモリ要件を大幅に削減する。我々は、複雑な合成データセット(例えば、Room-Diverse)のシーン分解と生成タスクにおいてトップクラスの結果を示すことで、本アプローチの有効性を実証する。さらに、実世界のシーン(例えば、LLFFデータセット)において、sVORFがオブジェクトを分割できる可能性も確認した。我々のアプローチが、物理世界の予備的理解を提供し、3次元物体中心の表現学習における将来の研究を容易にする一助となることを願っている。
要約(オリジナル)
We present a novel framework for 3D object-centric representation learning. Our approach effectively decomposes complex scenes into individual objects from a single image in an unsupervised fashion. This method, called slot-guided Volumetric Object Radiance Fields (sVORF), composes volumetric object radiance fields with object slots as a guidance to implement unsupervised 3D scene decomposition. Specifically, sVORF obtains object slots from a single image via a transformer module, maps these slots to volumetric object radiance fields with a hypernetwork and composes object radiance fields with the guidance of object slots at a 3D location. Moreover, sVORF significantly reduces memory requirement due to small-sized pixel rendering during training. We demonstrate the effectiveness of our approach by showing top results in scene decomposition and generation tasks of complex synthetic datasets (e.g., Room-Diverse). Furthermore, we also confirm the potential of sVORF to segment objects in real-world scenes (e.g., the LLFF dataset). We hope our approach can provide preliminary understanding of the physical world and help ease future research in 3D object-centric representation learning.
arxiv情報
著者 | Di Qi,Tong Yang,Xiangyu Zhang |
発行日 | 2024-01-04 12:52:48+00:00 |
arxivサイト | arxiv_id(pdf) |