Open-YOLO 3D: Towards Fast and Accurate Open-Vocabulary 3D Instance Segmentation

要約

オープンボキャブラリーの 3D インスタンスセグメンテーションに関する最近の研究は、大きな期待を示していますが、その代償として推論速度の遅さと高い計算要件が伴います。
この高い計算コストは​​、通常、3D クリップ機能への依存度が高いことが原因であり、マルチビューを 3D に集約するには、Segment Anything (SAM) や CLIP などの計算コストの高い 2D 基盤モデルが必要です。
結果として、これは、高速かつ正確な予測の両方を必要とする多くの実世界のアプリケーションへの適用を妨げます。
この目的を達成するために、我々は、Open-YOLO 3D と呼ばれる、高速かつ正確なオープン語彙 3D インスタンス セグメンテーション アプローチを提案します。このアプローチは、オープン語彙 3D インスタンス セグメンテーションにマルチビュー RGB 画像からの 2D オブジェクト検出のみを効果的に活用します。
このタスクは、シーン内のオブジェクトに対してクラスに依存しない 3D マスクを生成し、テキスト プロンプトに関連付けることによって解決されます。
クラスに依存しない 3D 点群インスタンスの投影がすでにインスタンス情報を保持していることがわかります。
したがって、SAM を使用すると、推論時間が不必要に増加する冗長性が生じるだけになる可能性があります。
私たちは経験的に、2D オブジェクト検出器を使用すると、テキスト プロンプトと 3D マスクのマッチングのパフォーマンスをより高速に達成できることがわかりました。
私たちは Open-YOLO 3D を 2 つのベンチマーク、ScanNet200 と Replica の 2 つのシナリオに基づいて検証します。(i) 特定のオブジェクト提案にラベルが必要なグラウンド トゥルース マスクを使用する場合と、(ii) 3D から生成されたクラスに依存しない 3D プロポーザルを使用する場合
提案ネットワーク。
当社の Open-YOLO 3D は、文献にある既存の最良の方法と比較して最大 $\sim$16$\times$ の高速化を実現しながら、両方のデータセットで最先端のパフォーマンスを実現します。
ScanNet200の場合
設定すると、当社の Open-YOLO 3D は、シーンあたり 22 秒で動作しながら、24.7\% の平均精度 (mAP) を達成します。
コードとモデルは github.com/minebdj/OpenYOLO3D で入手できます。

要約(オリジナル)

Recent works on open-vocabulary 3D instance segmentation show strong promise, but at the cost of slow inference speed and high computation requirements. This high computation cost is typically due to their heavy reliance on 3D clip features, which require computationally expensive 2D foundation models like Segment Anything (SAM) and CLIP for multi-view aggregation into 3D. As a consequence, this hampers their applicability in many real-world applications that require both fast and accurate predictions. To this end, we propose a fast yet accurate open-vocabulary 3D instance segmentation approach, named Open-YOLO 3D, that effectively leverages only 2D object detection from multi-view RGB images for open-vocabulary 3D instance segmentation. We address this task by generating class-agnostic 3D masks for objects in the scene and associating them with text prompts. We observe that the projection of class-agnostic 3D point cloud instances already holds instance information; thus, using SAM might only result in redundancy that unnecessarily increases the inference time. We empirically find that a better performance of matching text prompts to 3D masks can be achieved in a faster fashion with a 2D object detector. We validate our Open-YOLO 3D on two benchmarks, ScanNet200 and Replica, under two scenarios: (i) with ground truth masks, where labels are required for given object proposals, and (ii) with class-agnostic 3D proposals generated from a 3D proposal network. Our Open-YOLO 3D achieves state-of-the-art performance on both datasets while obtaining up to $\sim$16$\times$ speedup compared to the best existing method in literature. On ScanNet200 val. set, our Open-YOLO 3D achieves mean average precision (mAP) of 24.7\% while operating at 22 seconds per scene. Code and model are available at github.com/aminebdj/OpenYOLO3D.

arxiv情報

著者 Mohamed El Amine Boudjoghra,Angela Dai,Jean Lahoud,Hisham Cholakkal,Rao Muhammad Anwer,Salman Khan,Fahad Shahbaz Khan
発行日 2024-06-04 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク