BoxFusion: Reconstruction-Free Open-Vocabulary 3D Object Detection via Real-Time Multi-View Box Fusion

要約

自律的な運転と具体化されたAIにおける重要なアプリケーションにより、オープンボキャブラリー3Dオブジェクト検出は、大きな関心を集めています。
既存の検出方法は、オフラインであろうとオンラインであろうと、通常、密なポイントクラウドの再構成に依存しており、これはかなりの計算オーバーヘッドとメモリの制約を課し、ダウンストリームタスクでのリアルタイムの展開を妨げます。
これに対処するために、メモリ効率の高い3D検出とリアルタイムの3D検出に合わせて調整された新しい再構築のないオンラインフレームワークを提案します。
具体的には、RGB-Dビデオ入力のストリーミングが与えられた場合、Cubifyは、検出されたオブジェクトのオープンボキャブラリーセマンティクスをキャプチャするためにクリップと組み合わせて、境界ボックスと組み合わせて、シングルビュー3Dオブジェクト検出の事前訓練を受けたVisual Foundationモデル(VFM)として活用します。
検出されたすべての境界ボックスを異なるビューで統合するために、マルチビューの対応と最適化モジュールの関連モジュールを使用して、マルチビューで予測される同じインスタンスの3D境界ボックスを融合します。
Associationモジュールは、3D非最大抑制(NMS)とボックス対応マッチングモジュールを使用しますが、最適化モジュールは、粒子フィルタリングに基づいてIouガイド付き効率的なランダム最適化技術を使用して、3D境界ボックスのマルチビューの一貫性を順行しながら、コンピューターの複雑さを最小限に抑えます。
Scannetv2およびCa-1Mデータセットの広範な実験は、この方法がオンライン方法で最先端のパフォーマンスを達成することを示しています。
3Dオブジェクト検出のためのこの新しい再構成のないパラダイムの恩恵を受けるこの方法は、さまざまなシナリオで大きな一般化能力を示し、1000平方メートルを超える環境でもリアルタイムの知覚を可能にします。

要約(オリジナル)

Open-vocabulary 3D object detection has gained significant interest due to its critical applications in autonomous driving and embodied AI. Existing detection methods, whether offline or online, typically rely on dense point cloud reconstruction, which imposes substantial computational overhead and memory constraints, hindering real-time deployment in downstream tasks. To address this, we propose a novel reconstruction-free online framework tailored for memory-efficient and real-time 3D detection. Specifically, given streaming posed RGB-D video input, we leverage Cubify Anything as a pre-trained visual foundation model (VFM) for single-view 3D object detection by bounding boxes, coupled with CLIP to capture open-vocabulary semantics of detected objects. To fuse all detected bounding boxes across different views into a unified one, we employ an association module for correspondences of multi-views and an optimization module to fuse the 3D bounding boxes of the same instance predicted in multi-views. The association module utilizes 3D Non-Maximum Suppression (NMS) and a box correspondence matching module, while the optimization module uses an IoU-guided efficient random optimization technique based on particle filtering to enforce multi-view consistency of the 3D bounding boxes while minimizing computational complexity. Extensive experiments on ScanNetV2 and CA-1M datasets demonstrate that our method achieves state-of-the-art performance among online methods. Benefiting from this novel reconstruction-free paradigm for 3D object detection, our method exhibits great generalization abilities in various scenarios, enabling real-time perception even in environments exceeding 1000 square meters.

arxiv情報

著者 Yuqing Lan,Chenyang Zhu,Zhirui Gao,Jiazhao Zhang,Yihan Cao,Renjiao Yi,Yijie Wang,Kai Xu
発行日 2025-06-18 16:40:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク