AGILE3D: Attention Guided Interactive Multi-object 3D Segmentation

要約

インタラクティブなセグメンテーションでは、モデルとユーザーが協力して、3D 点群内の対象オブジェクトの輪郭を描きます。
反復プロセスでは、モデルは各データ ポイントをオブジェクト (または背景) に割り当てますが、ユーザーは結果のセグメンテーションのエラーを修正してモデルにフィードバックします。
機械学習の観点から見た目標は、必要なユーザー入力を最小限に抑える方法でモデルとフィードバック メカニズムを設計することです。
現在のベスト プラクティスでは、オブジェクトを一度に 1 つずつセグメント化し、背景に誤って割り当てられた領域を示すために正のクリックを提供し、オブジェクト (前景) に誤って割り当てられた領域を示すために負のクリックを提供するようにユーザーに要求します。
オブジェクトを順番に訪問することは、オブジェクト間の相乗効果を無視するため無駄です。特定のオブジェクトに対する肯定的なクリックは、定義上、近くのオブジェクトに対する否定的なクリックとして機能します。さらに、隣接するオブジェクト間の直接競合により、共通の境界の識別が高速化されます。

効率的なアテンションベースのモデルである AGILE3D を紹介します。これは、(1) 複数の 3D オブジェクトの同時セグメンテーションをサポートし、(2) より少ないユーザーのクリックでより正確なセグメンテーション マスクを生成し、(3) より高速な推論を提供します。
点群を潜在フィーチャ表現にエンコードし、ユーザーのクリックをクエリとして表示し、クロスアテンションを使用して、異なるクリック位置間およびクリックと 3D 点群フィーチャ間のコンテキスト関係を表します。
新しいクリックが追加されるたびに、更新されたセグメンテーション マスクを生成する軽量デコーダを実行するだけで済みます。
4 つの異なる点群データセットを使用した実験で、AGILE3D は新しい最先端技術を確立しました。さらに、実際のユーザー調査により、現実世界の設定における実用性も検証しました。

要約(オリジナル)

During interactive segmentation, a model and a user work together to delineate objects of interest in a 3D point cloud. In an iterative process, the model assigns each data point to an object (or the background), while the user corrects errors in the resulting segmentation and feeds them back into the model. From a machine learning perspective the goal is to design the model and the feedback mechanism in a way that minimizes the required user input. The current best practice segments objects one at a time, and asks the user to provide positive clicks to indicate regions wrongly assigned to the background and negative clicks to indicate regions wrongly assigned to the object (foreground). Sequentially visiting objects is wasteful, since it disregards synergies between objects: a positive click for a given object can, by definition, serve as a negative click for nearby objects, moreover a direct competition between adjacent objects can speed up the identification of their common boundary. We introduce AGILE3D, an efficient, attention-based model that (1) supports simultaneous segmentation of multiple 3D objects, (2) yields more accurate segmentation masks with fewer user clicks, and (3) offers faster inference. We encode the point cloud into a latent feature representation, and view user clicks as queries and employ cross-attention to represent contextual relations between different click locations as well as between clicks and the 3D point cloud features. Every time new clicks are added, we only need to run a lightweight decoder that produces updated segmentation masks. In experiments with four different point cloud datasets, AGILE3D sets a new state of the art, moreover, we also verify its practicality in real-world setups with a real user study.

arxiv情報

著者 Yuanwen Yue,Sabarinath Mahadevan,Jonas Schult,Francis Engelmann,Bastian Leibe,Konrad Schindler,Theodora Kontogianni
発行日 2023-06-01 17:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク