要約
3Dインスタンスセグメンテーションは、シーン内のオブジェクトインスタンスのセットを予測し、対応するセマンティックラベルを持つバイナリフォアグラウンドマスクとして表すことを目的としています。
現在、トランスベースの方法は、エレガントなパイプライン、幾何学的特性の手動選択の減少、および優れた性能により、注目を集めています。
ただし、トランスベースのメソッドは、クエリの初期化中に強力な位置とコンテンツ情報を同時に維持できません。
さらに、各デコーダーレイヤーでの監督のため、レイヤーの深化によりオブジェクトの消失の現象が存在します。
これらのハードルを克服するために、3Dインスタンスセグメンテーション(BFL)のエージェントインターポーゼーション初期化を備えた階層クエリフュージョントランスを超えて紹介します。
具体的には、エージェントインターの初期化モジュールは、前景のカバレッジとコンテンツ学習のバランスをとることができる回復力のあるクエリを生成するように設計されています。
さらに、階層クエリフュージョンデコーダーは、オーバーラップクエリが低く保持するように設計されており、レイヤーの深化によるリコールの減少を軽減します。
scannetv2、scannet200、scannet ++、およびs3disデータセットでの広範な実験は、BFLの優れた性能を示しています。
要約(オリジナル)
3D instance segmentation aims to predict a set of object instances in a scene and represent them as binary foreground masks with corresponding semantic labels. Currently, transformer-based methods are gaining increasing attention due to their elegant pipelines, reduced manual selection of geometric properties, and superior performance. However, transformer-based methods fail to simultaneously maintain strong position and content information during query initialization. Additionally, due to supervision at each decoder layer, there exists a phenomenon of object disappearance with the deepening of layers. To overcome these hurdles, we introduce Beyond the Final Layer: Hierarchical Query Fusion Transformer with Agent-Interpolation Initialization for 3D Instance Segmentation (BFL). Specifically, an Agent-Interpolation Initialization Module is designed to generate resilient queries capable of achieving a balance between foreground coverage and content learning. Additionally, a Hierarchical Query Fusion Decoder is designed to retain low overlap queries, mitigating the decrease in recall with the deepening of layers. Extensive experiments on ScanNetV2, ScanNet200, ScanNet++ and S3DIS datasets demonstrate the superior performance of BFL.
arxiv情報
著者 | Jiahao Lu,Jiacheng Deng,Tianzhu Zhang |
発行日 | 2025-02-06 15:19:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google