要約
ラディアンスフィールドは、複数の画像から3Dシーンをモデリングするための強力なツールとなっている。しかし、意味的に意味のある領域にセグメンテーションすることは依然として困難である。いくつかの手法は2次元のセマンティックマスクを用いてうまく機能するが、クラスにとらわれないセグメンテーションへの汎用性は低い。最近の手法では、この問題を回避するために、コントラスト学習を用いて高次元の3次元特徴場を最適化する。しかし、セグメンテーションを復元するためには、クラスタリングと、関連するハイパーパラメータの微調整が必要となる。これに対して我々は、セグメンテーションフィールドの手法に必要な変更を特定することで、クラスに依存しないマスクの矛盾にロバストでありながら、セグメンテーションフィールドを直接学習し、シーンを任意のクラスのオブジェクト集合にうまく分解することを目指す。 さらに空間的な正則化項を導入し、マスクが照合されるフィールドを限られた数の競合するオブジェクトスロットに制限することで、2D監視を最もよく説明する意味のあるオブジェクト表現が現れる。我々の実験は、複雑なシーンにおいて3Dパノプティックセグメンテーションを生成し、仮想3D環境で使用可能な高品質の3D資産を輝度フィールドから抽出する我々の手法の能力を実証する。
要約(オリジナル)
Radiance Fields have become a powerful tool for modeling 3D scenes from multiple images. However, they remain difficult to segment into semantically meaningful regions. Some methods work well using 2D semantic masks, but they generalize poorly to class-agnostic segmentations. More recent methods circumvent this issue by using contrastive learning to optimize a high-dimensional 3D feature field instead. However, recovering a segmentation then requires clustering and fine-tuning the associated hyperparameters. In contrast, we aim to identify the necessary changes in segmentation field methods to directly learn a segmentation field while being robust to inconsistent class-agnostic masks, successfully decomposing the scene into a set of objects of any class. By introducing an additional spatial regularization term and restricting the field to a limited number of competing object slots against which masks are matched, a meaningful object representation emerges that best explains the 2D supervision. Our experiments demonstrate the ability of our method to generate 3D panoptic segmentations on complex scenes, and extract high-quality 3D assets from radiance fields that can then be used in virtual 3D environments.
arxiv情報
著者 | Corentin Dumery,Aoxiang Fan,Ren Li,Nicolas Talabot,Pascal Fua |
発行日 | 2025-04-03 14:23:37+00:00 |
arxivサイト | arxiv_id(pdf) |