要約
市販のハンドヘルド デバイスから取得した単一の RGB(-D) フレームに関して屋内 3D オブジェクトの検出を検討します。
私たちは、データとモデリングの両方に関して現状を大幅に前進させることを目指しています。
まず、既存のデータセットには、オブジェクトの規模、精度、多様性に重大な制限があることを確立します。
その結果、Cubify-Anything 1M (CA-1M) データセットを導入しました。このデータセットは、3.5K を超えるハンドヘルドの自己中心的なキャプチャにほぼ完璧に位置合わせして、1K を超える高精度レーザー スキャン シーン上の 400K を超える 3D オブジェクトを徹底的にラベル付けします。
次に、完全な Transformer 3D オブジェクト検出ベースラインである Cubify Transformer (CuTR) を確立します。これは、ポイントまたはボクセルベースの表現で 3D で動作するのではなく、RGB(-D) 入力から得られた 2D 特徴から 3D ボックスを直接予測します。
このアプローチには 3D 誘導バイアスがありませんが、CA-1M と組み合わせると、CuTR がポイントベースの方法よりも優れたパフォーマンスを発揮し、3D のオブジェクトの 62% 以上を正確に再現し、商品 LiDAR に存在するノイズと不確実性を処理する能力が大幅に向上することがわかりました。
深度マップを派生させながら、アーキテクチャを変更せずに有望な RGB のみのパフォーマンスも提供します。
さらに、CA-1M で事前トレーニングすることにより、CuTR は SUN RGB-D のより多様なバリアントでポイントベースの手法よりも優れたパフォーマンスを発揮できます。これは、3D の誘導バイアスは既存のデータセットのサイズが小さい場合には有用ですが、失敗するという概念を裏付けています。
CA-1M のデータ豊富な体制に合わせて拡張します。
全体として、このデータセットとベースライン モデルは、あらゆるものを効果的に Cubify できるモデルに向かって進んでいることを示す強力な証拠を提供します。
要約(オリジナル)
We consider indoor 3D object detection with respect to a single RGB(-D) frame acquired from a commodity handheld device. We seek to significantly advance the status quo with respect to both data and modeling. First, we establish that existing datasets have significant limitations to scale, accuracy, and diversity of objects. As a result, we introduce the Cubify-Anything 1M (CA-1M) dataset, which exhaustively labels over 400K 3D objects on over 1K highly accurate laser-scanned scenes with near-perfect registration to over 3.5K handheld, egocentric captures. Next, we establish Cubify Transformer (CuTR), a fully Transformer 3D object detection baseline which rather than operating in 3D on point or voxel-based representations, predicts 3D boxes directly from 2D features derived from RGB(-D) inputs. While this approach lacks any 3D inductive biases, we show that paired with CA-1M, CuTR outperforms point-based methods – accurately recalling over 62% of objects in 3D, and is significantly more capable at handling noise and uncertainty present in commodity LiDAR-derived depth maps while also providing promising RGB only performance without architecture changes. Furthermore, by pre-training on CA-1M, CuTR can outperform point-based methods on a more diverse variant of SUN RGB-D – supporting the notion that while inductive biases in 3D are useful at the smaller sizes of existing datasets, they fail to scale to the data-rich regime of CA-1M. Overall, this dataset and baseline model provide strong evidence that we are moving towards models which can effectively Cubify Anything.
arxiv情報
著者 | Justin Lazarow,David Griffiths,Gefen Kohavi,Francisco Crespo,Afshin Dehghan |
発行日 | 2024-12-05 18:59:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google