要約
最近の作業により、大規模な訓練を受けた2Dモデルを使用して得られた事前に訓練された2D機能を3D機能に活用または蒸留する機能が実証されており、2D監督のみを使用して印象的な3D編集と理解機能を可能にします。
印象的ですが、モデルは3D機能が単一の機能フィールドを使用してキャプチャされ、多くの場合、機能がビューに依存しないという単純化された仮定を作成することを想定しています。
この作業では、代わりに、ビュー依存性とビューに依存しないコンポーネントを含む3D機能のさまざまな構造コンポーネントをキャプチャする複数の解き込められた機能フィールドを使用して、2D機能の監督からのみ学習できる3D機能を使用して、3D機能をキャプチャすることを提案します。
その後、各要素を単独で制御し、セマンティックおよび構造の理解と編集機能を可能にします。
たとえば、ユーザーのクリックを使用すると、特定のオブジェクトに対応する3D機能をセグメント化し、ビュー依存(反射)プロパティをセグメント化、編集、または削除できます。
3Dセグメンテーションのタスクに関するアプローチを評価し、タスクの新しい理解と編集のセットを実証します。
要約(オリジナル)
Recent work has demonstrated the ability to leverage or distill pre-trained 2D features obtained using large pre-trained 2D models into 3D features, enabling impressive 3D editing and understanding capabilities using only 2D supervision. Although impressive, models assume that 3D features are captured using a single feature field and often make a simplifying assumption that features are view-independent. In this work, we propose instead to capture 3D features using multiple disentangled feature fields that capture different structural components of 3D features involving view-dependent and view-independent components, which can be learned from 2D feature supervision only. Subsequently, each element can be controlled in isolation, enabling semantic and structural understanding and editing capabilities. For instance, using a user click, one can segment 3D features corresponding to a given object and then segment, edit, or remove their view-dependent (reflective) properties. We evaluate our approach on the task of 3D segmentation and demonstrate a set of novel understanding and editing tasks.
arxiv情報
著者 | Yoel Levy,David Shavin,Itai Lang,Sagie Benaim |
発行日 | 2025-02-20 18:09:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google