Segment Any 3D Object with Language

要約

この論文では、自由形式の言語命令を使用した Open-Vocabulary 3D Instance Segmentation (OV-3DIS) を調査します。
トレーニングのために注釈付きの基本カテゴリのみに依存する以前の作品は、まだ見たことのない新しいカテゴリへの限定的な一般化に悩まされています。
最近の研究では、クラスに依存しないマスクを生成したり、一般化マスクを 2D から 3D に投影したりすることで、新しいカテゴリへの低い一般化可能性を軽減していますが、セマンティック情報やジオメトリ情報が無視されており、次善のパフォーマンスにつながります。
代わりに、一般化可能だが意味論に関連したマスクを 3D 点群から直接生成すると、優れた結果が得られます。
この論文では、Segment any 3D Object with LanguagE (SOLE) を紹介します。これは、3D 点群から直接セマンティック関連のマスクを生成することにより、強力な一般化性を備えたセマンティックおよび幾何学的認識の視覚言語学習フレームワークです。
具体的には、バックボーンとデコーダの両方にマルチモーダルセマンティクスを組み込むマルチモーダル融合ネットワークを提案します。
さらに、3D セグメンテーション モデルをさまざまな言語命令と調整し、マスクの品質を向上させるために、監視として 3 種類のマルチモーダル関連付けを導入します。
私たちの SOLE は、ScanNetv2、ScanNet200、および Replica ベンチマークで以前の方法を大幅に上回っており、トレーニングにクラス アノテーションが存在しないにもかかわらず、結果は完全に監視された対応物にさえ近いものでした。
さらに、広範な定性的結果は、言語命令に対する当社の SOLE の多用途性を示しています。

要約(オリジナル)

In this paper, we investigate Open-Vocabulary 3D Instance Segmentation (OV-3DIS) with free-form language instructions. Earlier works that rely on only annotated base categories for training suffer from limited generalization to unseen novel categories. Recent works mitigate poor generalizability to novel categories by generating class-agnostic masks or projecting generalized masks from 2D to 3D, but disregard semantic or geometry information, leading to sub-optimal performance. Instead, generating generalizable but semantic-related masks directly from 3D point clouds would result in superior outcomes. In this paper, we introduce Segment any 3D Object with LanguagE (SOLE), which is a semantic and geometric-aware visual-language learning framework with strong generalizability by generating semantic-related masks directly from 3D point clouds. Specifically, we propose a multimodal fusion network to incorporate multimodal semantics in both backbone and decoder. In addition, to align the 3D segmentation model with various language instructions and enhance the mask quality, we introduce three types of multimodal associations as supervision. Our SOLE outperforms previous methods by a large margin on ScanNetv2, ScanNet200, and Replica benchmarks, and the results are even close to the fully-supervised counterpart despite the absence of class annotations in the training. Furthermore, extensive qualitative results demonstrate the versatility of our SOLE to language instructions.

arxiv情報

著者 Seungjun Lee,Yuyang Zhao,Gim Hee Lee
発行日 2024-04-02 17:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク