CompetitorFormer: Competitor Transformer for 3D Instance Segmentation

要約

トランスフォーマーベースの方法は、3D インスタンスのセグメンテーションの主要なアプローチになっています。
これらのメソッドは、インスタンス クエリを通じてインスタンス マスクを予測し、分類の信頼性と IoU スコアによってランク付けして、最上位の予測を最終結果として選択します。
ただし、現在のモデルでは、シーン内に存在するインスタンスよりも固定の、より多くの数のクエリが使用されていることが観察されています。
このような場合、複数のクエリが同じインスタンスを予測しますが、最終的に最適化されるのは 1 つのクエリだけです。
下位レベルのデコーダーのクエリのスコアが近いため、支配的なクエリがそれ自体を迅速に区別することが困難になり、最終的にモデルの精度と収束効率が損なわれます。
この現象はクエリ間競合と呼ばれます。
この課題に対処するために、私たちは競争を減らし、支配的なクエリを促進することを目的として、総称して CompetitorFormer と呼ばれる一連のプラグ アンド プレイの競争指向の設計を提案しました。
実験の結果、私たちの設計を最先端のフレームワークと統合すると、さまざまなデータセットにわたる 3D インスタンスのセグメンテーションのパフォーマンスが一貫して大幅に向上することがわかりました。

要約(オリジナル)

Transformer-based methods have become the dominant approach for 3D instance segmentation. These methods predict instance masks via instance queries, ranking them by classification confidence and IoU scores to select the top prediction as the final outcome. However, it has been observed that the current models employ a fixed and higher number of queries than the instances present within a scene. In such instances, multiple queries predict the same instance, yet only a single query is ultimately optimized. The close scores of queries in the lower-level decoders make it challenging for the dominant query to distinguish itself rapidly, which ultimately impairs the model’s accuracy and convergence efficiency. This phenomenon is referred to as inter-query competition. To address this challenge, we put forth a series of plug-and-play competition-oriented designs, collectively designated as the CompetitorFormer, with the aim of reducing competition and facilitating a dominant query. Experiments showed that integrating our designs with state-of-the-art frameworks consistently resulted in significant performance improvements in 3D instance segmentation across a range of datasets.

arxiv情報

著者 Duanchu Wang,Jing Liu,Haoran Gong,Yinghui Quan,Di Wang
発行日 2024-11-21 14:40:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク