要約
画像セグメンテーション用の 2D 基礎モデルの開発は、Segment Anything Model (SAM) によって大幅に進歩しました。
ただし、3D モデルで同様の成功を収めることは、統一されていないデータ形式、軽量モデル、多様なマスクを持つラベル付きデータの不足などの問題により、依然として課題が残っています。
この目的を達成するために、点群に焦点を当てた 3D プロンプタブル セグメンテーション モデル (Point-SAM) を提案します。
私たちのアプローチはトランスフォーマーベースの方法を利用し、SAM を 3D ドメインに拡張します。
パーツレベルとオブジェクトレベルのアノテーションを活用し、SAM から疑似ラベルを生成するデータ エンジンを導入することで、2D の知識を 3D モデルに抽出します。
私たちのモデルは、屋内および屋外のいくつかのベンチマークで最先端のモデルを上回り、3D アノテーションなどのさまざまなアプリケーションを実証します。
コードとデモは https://github.com/zyc00/Point-SAM にあります。
要約(オリジナル)
The development of 2D foundation models for image segmentation has been significantly advanced by the Segment Anything Model (SAM). However, achieving similar success in 3D models remains a challenge due to issues such as non-unified data formats, lightweight models, and the scarcity of labeled data with diverse masks. To this end, we propose a 3D promptable segmentation model (Point-SAM) focusing on point clouds. Our approach utilizes a transformer-based method, extending SAM to the 3D domain. We leverage part-level and object-level annotations and introduce a data engine to generate pseudo labels from SAM, thereby distilling 2D knowledge into our 3D model. Our model outperforms state-of-the-art models on several indoor and outdoor benchmarks and demonstrates a variety of applications, such as 3D annotation. Codes and demo can be found at https://github.com/zyc00/Point-SAM.
arxiv情報
著者 | Yuchen Zhou,Jiayuan Gu,Tung Yen Chiang,Fanbo Xiang,Hao Su |
発行日 | 2024-06-25 17:28:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google