3D Instances as 1D Kernels

要約

インスタンスカーネルと呼ばれる3Dインスタンス表現を紹介します。ここで、インスタンスは、3Dインスタンスの意味、位置、および形状の情報をエンコードする1次元ベクトルによって表されます。
インスタンスカーネルは、シーン全体でカーネルをスキャンするだけで簡単なマスク推論を可能にし、標準の3Dインスタンスセグメンテーションパイプラインでの提案やヒューリスティッククラスタリングアルゴリズムへの大きな依存を回避できることを示します。
インスタンスカーネルのアイデアは、2D/3Dインスタンスセグメンテーションにおける動的畳み込みの最近の成功に触発されています。
ただし、点群データの無秩序で構造化されていない性質のため、3Dインスタンスを表すことは簡単ではありません。たとえば、インスタンスのローカリゼーションが不十分だと、インスタンスの表現が大幅に低下する可能性があります。
これを改善するために、新しい3Dインスタンスエンコーディングパラダイムを構築します。
まず、潜在的なインスタンスの重心が候補としてローカライズされます。
次に、重複した候補を同時に集約し、マージされた重心の周囲のコンテキストを収集してインスタンスカーネルを形成するために、候補のマージスキームが考案されます。
インスタンスカーネルが利用可能になると、インスタンスマスクは、重みがインスタンスカーネルで条件付けられる動的畳み込みを介して再構築できます。
パイプライン全体は、動的カーネルネットワーク(DKNet)でインスタンス化されます。
結果は、DKNetがScanNetV2とS3DISの両方のデータセットで最新技術を上回り、インスタンスのローカリゼーションが優れていることを示しています。
コードが利用可能です:https://github.com/W1zheng/DKNet。

要約(オリジナル)

We introduce a 3D instance representation, termed instance kernels, where instances are represented by one-dimensional vectors that encode the semantic, positional, and shape information of 3D instances. We show that instance kernels enable easy mask inference by simply scanning kernels over the entire scenes, avoiding the heavy reliance on proposals or heuristic clustering algorithms in standard 3D instance segmentation pipelines. The idea of instance kernel is inspired by recent success of dynamic convolutions in 2D/3D instance segmentation. However, we find it non-trivial to represent 3D instances due to the disordered and unstructured nature of point cloud data, e.g., poor instance localization can significantly degrade instance representation. To remedy this, we construct a novel 3D instance encoding paradigm. First, potential instance centroids are localized as candidates. Then, a candidate merging scheme is devised to simultaneously aggregate duplicated candidates and collect context around the merged centroids to form the instance kernels. Once instance kernels are available, instance masks can be reconstructed via dynamic convolutions whose weights are conditioned on instance kernels. The whole pipeline is instantiated with a dynamic kernel network (DKNet). Results show that DKNet outperforms the state of the arts on both ScanNetV2 and S3DIS datasets with better instance localization. Code is available: https://github.com/W1zheng/DKNet.

arxiv情報

著者 Yizheng Wu,Min Shi,Shuaiyuan Du,Hao Lu,Zhiguo Cao,Weicai Zhong
発行日 2022-07-15 09:38:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク