要約
自動運転の分野では、単眼 3D 検出は、単一の RGB 画像内の物体の 3D 特性 (奥行き、寸法、方向) を推定する重要なタスクです。
これまでの研究では、不適切な特徴が悪影響を与える可能性があることを考慮せずに、ヒューリスティックな方法で特徴を使用して 3D プロパティを学習していました。
このペーパーでは、適切なサンプルのみをトレーニングして 3D プロパティを回帰するサンプル選択が導入されています。
サンプルを適応的に選択するために、Gumbel-Softmax と相対距離サンプル分割器に基づく学習可能なサンプル選択 (LSS) モジュールを提案します。
LSS モジュールは、トレーニングの安定性の向上につながるウォームアップ戦略に基づいて機能します。
さらに、3D プロパティ サンプルの選択専用の LSS モジュールはオブジェクト レベルの機能に依存しているため、あいまいさを導入することなくイメージング原理に準拠した 3D プロパティ サンプルを強化するために、MixUp3D という名前のデータ拡張手法をさらに開発します。
LSS モジュールと MixUp3D は、2 つの直交する方法として、独立して使用することも、組み合わせて使用することもできます。
十分な実験により、これらを組み合わせて使用すると相乗効果が得られ、個々の用途の単なる合計を超えた改善が得られることが示されています。
LSS モジュールと MixUp3D を活用し、追加データを一切使用せず、MonoLSS と名付けられた私たちの手法は、KITTI 3D 物体検出ベンチマークの 3 つのカテゴリすべて (自動車、自転車、歩行者) で 1 位にランクされ、Waymo データセットと KITTI の両方で競争力のある結果を達成しました。
nuScenes のクロスデータセット評価。
コードは補足資料に含まれており、関連する学術研究や産業研究を促進するために公開されます。
要約(オリジナル)
In the field of autonomous driving, monocular 3D detection is a critical task which estimates 3D properties (depth, dimension, and orientation) of objects in a single RGB image. Previous works have used features in a heuristic way to learn 3D properties, without considering that inappropriate features could have adverse effects. In this paper, sample selection is introduced that only suitable samples should be trained to regress the 3D properties. To select samples adaptively, we propose a Learnable Sample Selection (LSS) module, which is based on Gumbel-Softmax and a relative-distance sample divider. The LSS module works under a warm-up strategy leading to an improvement in training stability. Additionally, since the LSS module dedicated to 3D property sample selection relies on object-level features, we further develop a data augmentation method named MixUp3D to enrich 3D property samples which conforms to imaging principles without introducing ambiguity. As two orthogonal methods, the LSS module and MixUp3D can be utilized independently or in conjunction. Sufficient experiments have shown that their combined use can lead to synergistic effects, yielding improvements that transcend the mere sum of their individual applications. Leveraging the LSS module and the MixUp3D, without any extra data, our method named MonoLSS ranks 1st in all three categories (Car, Cyclist, and Pedestrian) on KITTI 3D object detection benchmark, and achieves competitive results on both the Waymo dataset and KITTI-nuScenes cross-dataset evaluation. The code is included in the supplementary material and will be released to facilitate related academic and industrial studies.
arxiv情報
著者 | Zhenjia Li,Jinrang Jia,Yifeng Shi |
発行日 | 2023-12-22 06:53:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google