iSeg: Interactive 3D Segmentation via Interactive Attention

要約

3D 形状をセグメント化するための新しい対話型技術である iSeg を紹介します。
これまでの研究では、テキストに基づいた 3D セグメンテーションに事前トレーニングされた 2D 基礎モデルを活用することに主に焦点を当ててきました。
ただし、きめの細かい空間セグメンテーションを正確に説明するには、テキストだけでは不十分な場合があります。
さらに、同じセマンティック領域のオクルージョンされた領域は、どの 2D ビューからも同時に表示できない可能性があるため、2D モデルを使用して一貫した 3D セグメンテーションを実現することは非常に困難です。
したがって、完全に 3D で動作する、ユーザーの細かいクリックを条件としたセグメンテーション方法を設計します。
私たちのシステムは、ユーザーが形状の表面を直接クリックすることを受け入れ、目的の形状パーティションに領域を含めるか除外するかを示します。
さまざまなクリック設定に対応するために、さまざまな数と種類のクリックを処理できる新しいインタラクティブ アテンション モジュールを提案し、単一の統合されたインタラクティブ セグメンテーション モデルのトレーニングを可能にします。
私たちは iSeg をさまざまな分野の無数の形状に適用し、その多用途性とユーザー仕様への忠実性を実証しています。
私たちのプロジェクト ページは https://threedle.github.io/iSeg/ にあります。

要約(オリジナル)

We present iSeg, a new interactive technique for segmenting 3D shapes. Previous works have focused mainly on leveraging pre-trained 2D foundation models for 3D segmentation based on text. However, text may be insufficient for accurately describing fine-grained spatial segmentations. Moreover, achieving a consistent 3D segmentation using a 2D model is highly challenging, since occluded areas of the same semantic region may not be visible together from any 2D view. Thus, we design a segmentation method conditioned on fine user clicks, which operates entirely in 3D. Our system accepts user clicks directly on the shape’s surface, indicating the inclusion or exclusion of regions from the desired shape partition. To accommodate various click settings, we propose a novel interactive attention module capable of processing different numbers and types of clicks, enabling the training of a single unified interactive segmentation model. We apply iSeg to a myriad of shapes from different domains, demonstrating its versatility and faithfulness to the user’s specifications. Our project page is at https://threedle.github.io/iSeg/.

arxiv情報

著者 Itai Lang,Fei Xu,Dale Decatur,Sudarshan Babu,Rana Hanocka
発行日 2024-10-28 13:35:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク