Anyview: Generalizable Indoor 3D Object Detection with Variable Frames

要約

この論文では、実際のシナリオで可変入力フレーム数を処理するための、屋内 3D オブジェクト検出用の新しいネットワーク フレームワークを提案します。
既存の方法では、単眼 RGB-D 画像や高密度多視点 RGB-D 画像から再構成された点群など、単一検出器の入力データの固定フレームのみが考慮されます。
ロボットのナビゲーションや操作などの実際のアプリケーション シーンでは、3D 検出器への生の入力は、再構成されたシーンの点群ではなく、可変フレーム番号を持つ RGB-D 画像です。
ただし、以前のアプローチでは固定フレーム入力データしか処理できず、可変フレーム入力ではパフォーマンスが低下します。
実際のタスクに適した 3D オブジェクト検出方法を容易にするために、実際のアプリケーション向けに AnyView という名前の新しい 3D 検出フレームワークを紹介します。これは、単一のモデルでさまざまな数の入力フレームにわたってよく一般化されます。
具体的には、各入力 RGB-D 画像フレームのローカル幾何学的特徴をマイニングし、設計された空間混合モジュールを通じてローカルとグローバルの特徴の相互作用を実装する幾何学学習器を提案します。
一方、動的トークン戦略をさらに利用して、フレームごとに抽出された特徴の数を適応的に調整します。これにより、一貫した全体的な特徴密度が保証され、融合後の一般化がさらに強化されます。
ScanNet データセットに対する広範な実験により、ベースラインと同量のパラメーターを含むシンプルでクリーンなアーキテクチャにより、私たちの手法が優れた一般化性と高い検出精度の両方を達成できることがわかりました。

要約(オリジナル)

In this paper, we propose a novel network framework for indoor 3D object detection to handle variable input frame numbers in practical scenarios. Existing methods only consider fixed frames of input data for a single detector, such as monocular RGB-D images or point clouds reconstructed from dense multi-view RGB-D images. While in practical application scenes such as robot navigation and manipulation, the raw input to the 3D detectors is the RGB-D images with variable frame numbers instead of the reconstructed scene point cloud. However, the previous approaches can only handle fixed frame input data and have poor performance with variable frame input. In order to facilitate 3D object detection methods suitable for practical tasks, we present a novel 3D detection framework named AnyView for our practical applications, which generalizes well across different numbers of input frames with a single model. To be specific, we propose a geometric learner to mine the local geometric features of each input RGB-D image frame and implement local-global feature interaction through a designed spatial mixture module. Meanwhile, we further utilize a dynamic token strategy to adaptively adjust the number of extracted features for each frame, which ensures consistent global feature density and further enhances the generalization after fusion. Extensive experiments on the ScanNet dataset show our method achieves both great generalizability and high detection accuracy with a simple and clean architecture containing a similar amount of parameters with the baselines.

arxiv情報

著者 Zhenyu Wu,Xiuwei Xu,Ziwei Wang,Chong Xia,Linqing Zhao,Jiwen Lu,Haibin Yan
発行日 2023-10-09 02:15:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク