要約
3D インスタンス セグメンテーションのインタラクティブなアプローチを提案します。このアプローチでは、ユーザーはディープ ラーニング モデルと反復的に共同作業を行い、3D ポイント クラウド内のオブジェクトを直接セグメント化できます。
3D インスタンス セグメンテーションの現在の方法は、通常、完全に教師ありの方法でトレーニングされます。これには、大量のコストのかかるトレーニング ラベルが必要であり、トレーニング中に見えないクラスにはうまく一般化されません。
人間の相互作用を使用して 3D セグメンテーション マスクを取得しようとした研究はほとんどありません。
既存の方法は、2D 画像ドメインでのユーザー フィードバックに依存しています。
その結果、ユーザーは 2D 画像と 3D 表現を常に切り替える必要があり、複数の入力モダリティを組み合わせるためにカスタム アーキテクチャが採用されています。
したがって、既存の標準 3D モデルとの統合は簡単ではありません。
この作業の核となるアイデアは、ユーザーが目的の 3D オブジェクト~(またはその背景) をクリックして 3D 点群と直接対話し、オープンワールド設定でシーンをインタラクティブにセグメント化できるようにすることです。
具体的には、私たちの方法は、ターゲットドメインからのトレーニングデータを必要とせず、適切なトレーニングセットが利用できない新しい環境に適応できます。
私たちのシステムは、ユーザーのフィードバックに基づいてオブジェクトのセグメンテーションを継続的に調整し、最小限の人的労力 (オブジェクトごとに数回のクリック) で正確な高密度 3D セグメンテーション マスクを実現します。
大規模で多様な 3D データセットの効率的なラベル付けの可能性に加えて、ユーザーが 3D 環境と直接対話する私たちのアプローチは、AR/VR および人間とロボットの相互作用における新しいアプリケーションを可能にします。
要約(オリジナル)
We propose an interactive approach for 3D instance segmentation, where users can iteratively collaborate with a deep learning model to segment objects in a 3D point cloud directly. Current methods for 3D instance segmentation are generally trained in a fully-supervised fashion, which requires large amounts of costly training labels, and does not generalize well to classes unseen during training. Few works have attempted to obtain 3D segmentation masks using human interactions. Existing methods rely on user feedback in the 2D image domain. As a consequence, users are required to constantly switch between 2D images and 3D representations, and custom architectures are employed to combine multiple input modalities. Therefore, integration with existing standard 3D models is not straightforward. The core idea of this work is to enable users to interact directly with 3D point clouds by clicking on desired 3D objects of interest~(or their background) to interactively segment the scene in an open-world setting. Specifically, our method does not require training data from any target domain, and can adapt to new environments where no appropriate training sets are available. Our system continuously adjusts the object segmentation based on the user feedback and achieves accurate dense 3D segmentation masks with minimal human effort (few clicks per object). Besides its potential for efficient labeling of large-scale and varied 3D datasets, our approach, where the user directly interacts with the 3D environment, enables new applications in AR/VR and human-robot interaction.
arxiv情報
著者 | Theodora Kontogianni,Ekin Celikkan,Siyu Tang,Konrad Schindler |
発行日 | 2023-01-23 12:50:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google