AGILE3D: Attention Guided Interactive Multi-object 3D Segmentation

要約

インタラクティブなセグメンテーションでは、モデルとユーザーが協力して、3D 点群内の対象オブジェクトの輪郭を描きます。
反復プロセスでは、モデルは各データ ポイントをオブジェクト (または背景) に割り当てますが、ユーザーは結果のセグメンテーションのエラーを修正してモデルにフィードバックします。
現在のベスト プラクティスでは、問題をバイナリ分類として定式化し、オブジェクトを一度に 1 つずつセグメント化します。
モデルは、ユーザーが背景に誤って割り当てられた領域を示すために肯定的なクリックを提供し、オブジェクトに誤って割り当てられた領域に対して負のクリックを提供することを期待します。
オブジェクトを順番に訪問することは、オブジェクト間の相乗効果を無視するため無駄です。特定のオブジェクトに対するポジティブなクリックは、定義上、近くのオブジェクトに対するネガティブなクリックとして機能する可能性があります。
さらに、隣接するオブジェクト間の直接競合により、それらの共通の境界の識別が迅速化されます。
効率的なアテンションベースのモデルである AGILE3D を紹介します。これは、(1) 複数の 3D オブジェクトの同時セグメンテーションをサポートし、(2) より少ないユーザーのクリックでより正確なセグメンテーション マスクを生成し、(3) より高速な推論を提供します。
私たちの中心的なアイデアは、ユーザーのクリックを時空間クエリとしてエンコードし、クリック アテンション モジュールを通じてクリック クエリ間およびクリック クエリと 3D シーン間の明示的な対話を可能にすることです。
新しいクリックが追加されるたびに、更新されたセグメンテーション マスクを生成する軽量デコーダを実行するだけで済みます。
4 つの異なる 3D 点群データセットを使用した実験で、AGILE3D は新しい最先端を確立しました。
さらに、実際のユーザー調査により、実際の設定における実用性も検証しています。

要約(オリジナル)

During interactive segmentation, a model and a user work together to delineate objects of interest in a 3D point cloud. In an iterative process, the model assigns each data point to an object (or the background), while the user corrects errors in the resulting segmentation and feeds them back into the model. The current best practice formulates the problem as binary classification and segments objects one at a time. The model expects the user to provide positive clicks to indicate regions wrongly assigned to the background and negative clicks on regions wrongly assigned to the object. Sequentially visiting objects is wasteful since it disregards synergies between objects: a positive click for a given object can, by definition, serve as a negative click for nearby objects. Moreover, a direct competition between adjacent objects can speed up the identification of their common boundary. We introduce AGILE3D, an efficient, attention-based model that (1) supports simultaneous segmentation of multiple 3D objects, (2) yields more accurate segmentation masks with fewer user clicks, and (3) offers faster inference. Our core idea is to encode user clicks as spatial-temporal queries and enable explicit interactions between click queries as well as between them and the 3D scene through a click attention module. Every time new clicks are added, we only need to run a lightweight decoder that produces updated segmentation masks. In experiments with four different 3D point cloud datasets, AGILE3D sets a new state-of-the-art. Moreover, we also verify its practicality in real-world setups with real user studies.

arxiv情報

著者 Yuanwen Yue,Sabarinath Mahadevan,Jonas Schult,Francis Engelmann,Bastian Leibe,Konrad Schindler,Theodora Kontogianni
発行日 2024-01-18 18:59:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク