要約
グループ化は、シーンを分解する際に複数のレベルの粒度があるため、本質的にあいまいです。掘削機の車輪は別個に考えるべきでしょうか、それとも全体の一部と考えるべきでしょうか?
我々は、ポーズをとった画像入力から 3D シーンを意味論的に意味のあるグループの階層に分解するアプローチである Group Anything with Radiance Fields (GARField) を紹介します。
これを行うために、物理スケールによるグループの曖昧さを採用します。スケール条件付きの 3D アフィニティ フィーチャ フィールドを最適化することで、ワールド内のポイントを異なるサイズの異なるグループに所属させることができます。
このフィールドは、Segment Anything (SAM) によって提供される 2D マスクのセットから、粗いものから細かいものまでの階層を尊重する方法で最適化されます。スケールを使用して、さまざまな視点から矛盾するマスクを一貫して融合します。
このフィールドから、自動ツリー構築またはユーザー操作を通じて、可能なグループ化の階層を導き出すことができます。
私たちは、さまざまな実際のシーンで GARField を評価し、オブジェクトのクラスター、オブジェクト、およびさまざまなサブパーツなど、多くのレベルでグループを効果的に抽出することがわかりました。
GARField は本質的にマルチビューの一貫したグループ化を表し、入力 SAM マスクよりも忠実度の高いグループを生成します。
GARField の階層的なグループ化には、3D アセット抽出や動的なシーン理解などのエキサイティングな下流アプリケーションが含まれる可能性があります。
プロジェクトの Web サイト https://www.garfield.studio/ をご覧ください。
要約(オリジナル)
Grouping is inherently ambiguous due to the multiple levels of granularity in which one can decompose a scene — should the wheels of an excavator be considered separate or part of the whole? We present Group Anything with Radiance Fields (GARField), an approach for decomposing 3D scenes into a hierarchy of semantically meaningful groups from posed image inputs. To do this we embrace group ambiguity through physical scale: by optimizing a scale-conditioned 3D affinity feature field, a point in the world can belong to different groups of different sizes. We optimize this field from a set of 2D masks provided by Segment Anything (SAM) in a way that respects coarse-to-fine hierarchy, using scale to consistently fuse conflicting masks from different viewpoints. From this field we can derive a hierarchy of possible groupings via automatic tree construction or user interaction. We evaluate GARField on a variety of in-the-wild scenes and find it effectively extracts groups at many levels: clusters of objects, objects, and various subparts. GARField inherently represents multi-view consistent groupings and produces higher fidelity groups than the input SAM masks. GARField’s hierarchical grouping could have exciting downstream applications such as 3D asset extraction or dynamic scene understanding. See the project website at https://www.garfield.studio/
arxiv情報
著者 | Chung Min Kim,Mingxuan Wu,Justin Kerr,Ken Goldberg,Matthew Tancik,Angjoo Kanazawa |
発行日 | 2024-01-17 18:57:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google