Efficient 3D Instance Mapping and Localization with Neural Fields


私たちは、ポーズをとった一連の RGB 画像から 3D インスタンスのセグメンテーションのための暗黙的なシーン表現を学習するという問題に取り組みます。
これに向けて、新しい視点から 3D インスタンス セグメンテーション マスクをレンダリングできるニューラル ラベル フィールドを効率的に学習する新しいフレームワークである 3DIML を紹介します。
自己監視型で神経場を最適化し、複雑なトレーニング手順と損失関数設計を必要とする従来技術とは対照的に、3DIML は 2 フェーズのプロセスを利用します。
最初のフェーズである InstanceMap は、フロントエンド インスタンス セグメンテーション モデルによって生成された画像シーケンスの 2D セグメンテーション マスクを入力として受け取り、画像全体の対応するマスクを 3D ラベルに関連付けます。
これらのほぼ 3D 一貫性のある擬似ラベル マスクは、次に第 2 フェーズである InstanceLift で使用され、ニューラル ラベル フィールドのトレーニングを監視します。これにより、InstanceMap で欠落した領域が補間され、曖昧さが解決されます。
さらに、訓練されたニューラル ラベル フィールドが与えられたインスタンス マスクのほぼリアルタイムの位置特定を可能にする InstanceLoc を導入します。
私たちは、レプリカおよび ScanNet データセットからのシーケンスに対して 3DIML を評価し、画像シーケンスに対する穏やかな仮定の下でその有効性を実証します。
私たちは、同等の品質を持つ既存の暗黙的なシーン表現手法と比較して実質的な大幅な高速化を達成し、より速く、より効果的な 3D シーンの理解を促進する可能性を示しています。


We tackle the problem of learning an implicit scene representation for 3D instance segmentation from a sequence of posed RGB images. Towards this, we introduce 3DIML, a novel framework that efficiently learns a neural label field which can render 3D instance segmentation masks from novel viewpoints. Opposed to prior art that optimizes a neural field in a self-supervised manner, requiring complicated training procedures and loss function design, 3DIML leverages a two-phase process. The first phase, InstanceMap, takes as input 2D segmentation masks of the image sequence generated by a frontend instance segmentation model, and associates corresponding masks across images to 3D labels. These almost 3D-consistent pseudolabel masks are then used in the second phase, InstanceLift, to supervise the training of a neural label field, which interpolates regions missed by InstanceMap and resolves ambiguities. Additionally, we introduce InstanceLoc, which enables near realtime localization of instance masks given a trained neural label field. We evaluate 3DIML on sequences from the Replica and ScanNet datasets and demonstrate its effectiveness under mild assumptions for the image sequences. We achieve a large practical speedup over existing implicit scene representation methods with comparable quality, showcasing its potential to facilitate faster and more effective 3D scene understanding.


著者 George Tang,Krishna Murthy Jatavallabhula,Antonio Torralba
発行日 2024-09-18 14:56:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク