要約
私たちは、ポーズをとった RGB 画像のシーケンスから 3D インスタンスのセグメンテーションのための暗黙的なシーン表現を学習するという問題に取り組みます。
これに向けて、新しい視点から 3D インスタンス セグメンテーション マスクをレンダリングできるニューラル ラベル フィールドを効率的に学習する新しいフレームワークである 3DIML を紹介します。
自己監視型で神経場を最適化し、複雑なトレーニング手順と損失関数設計を必要とする従来技術とは対照的に、3DIML は 2 フェーズのプロセスを利用します。
最初のフェーズである InstanceMap は、フロントエンド インスタンス セグメンテーション モデルによって生成された画像シーケンスの 2D セグメンテーション マスクを入力として受け取り、画像全体の対応するマスクを 3D ラベルに関連付けます。
これらのほぼ 3D 一貫性のある擬似ラベル マスクは、次に第 2 フェーズである InstanceLift で使用され、ニューラル ラベル フィールドのトレーニングを監視します。これにより、InstanceMap で欠落した領域が補間され、曖昧さが解決されます。
さらに、訓練されたニューラル ラベル フィールドが与えられたインスタンス マスクのほぼリアルタイムの位置特定を可能にする InstanceLoc を導入します。
私たちは、レプリカおよび ScanNet データセットからのシーケンスで 3DIML を評価し、画像シーケンスに対する穏やかな仮定の下でその有効性を実証します。
私たちは、同等の品質を持つ既存の暗黙的なシーン表現手法と比較して実質的な大幅な高速化を達成し、より速く、より効果的な 3D シーンの理解を促進する可能性を示しています。
要約(オリジナル)
We tackle the problem of learning an implicit scene representation for 3D instance segmentation from a sequence of posed RGB images. Towards this, we introduce 3DIML, a novel framework that efficiently learns a neural label field which can render 3D instance segmentation masks from novel viewpoints. Opposed to prior art that optimizes a neural field in a self-supervised manner, requiring complicated training procedures and loss function design, 3DIML leverages a two-phase process. The first phase, InstanceMap, takes as input 2D segmentation masks of the image sequence generated by a frontend instance segmentation model, and associates corresponding masks across images to 3D labels. These almost 3D-consistent pseudolabel masks are then used in the second phase, InstanceLift, to supervise the training of a neural label field, which interpolates regions missed by InstanceMap and resolves ambiguities. Additionally, we introduce InstanceLoc, which enables near realtime localization of instance masks given a trained neural label field. We evaluate 3DIML on sequences from the Replica and ScanNet datasets and demonstrate its effectiveness under mild assumptions for the image sequences. We achieve a large practical speedup over existing implicit scene representation methods with comparable quality, showcasing its potential to facilitate faster and more effective 3D scene understanding.
arxiv情報
著者 | George Tang,Krishna Murthy Jatavallabhula,Antonio Torralba |
発行日 | 2024-11-21 15:07:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google