Augment and Criticize: Exploring Informative Samples for Semi-Supervised Monocular 3D Object Detection

要約

この論文では、一般的な半教師ありフレームワークを使用して、困難な単眼 3D オブジェクト検出の問題を改善します。
具体的には、このタスクのボトルネックは、検出器をトレーニングするための信頼できる有益なサンプルがないことにあることを観察したため、より堅牢な検出を学習するために、ラベルのないデータから豊富な有益なサンプルを探索する、斬新でシンプルでありながら効果的な「拡張と批判」フレームワークを導入します
モデル。
「拡張」段階では、拡張ベースの予測 aGgregation (APG) を提示します。これは、さまざまな自動的に学習された拡張ビューからの検出を集約して、疑似ラベル生成の堅牢性を向上させます。
APG からのすべての疑似ラベルが有益な情報を提供するわけではないため、その後の「批判」フェーズが提示されます。
特に、Critical Retraining Strategy (CRS) を導入します。これは、2D 半教師ありタスクのように固定しきい値 (分類スコアなど) を使用して疑似ラベルを単純にフィルタリングするのとは異なり、学習可能なネットワークを活用して、さまざまな場所でのラベルのない画像の寄与を評価します。
トレーニングのタイムスタンプ。
このようにして、モデルの進化を妨げるノイズの多いサンプルを効果的に抑制することができます。
フレームワークを検証するために、MonoDLE と MonoFlex に適用します。
3DSeMo_DLE および 3DSeMo_FLEX と呼ばれる 2 つの新しい検出器は、KITTI で 3.5% 以上の AP_3D/BEV (Easy) を大幅に改善して最先端の結果を達成し、その有効性と汎用性を示しています。
コードとモデルがリリースされます。

要約(オリジナル)

In this paper, we improve the challenging monocular 3D object detection problem with a general semi-supervised framework. Specifically, having observed that the bottleneck of this task lies in lacking reliable and informative samples to train the detector, we introduce a novel, simple, yet effective `Augment and Criticize’ framework that explores abundant informative samples from unlabeled data for learning more robust detection models. In the `Augment’ stage, we present the Augmentation-based Prediction aGgregation (APG), which aggregates detections from various automatically learned augmented views to improve the robustness of pseudo label generation. Since not all pseudo labels from APG are beneficially informative, the subsequent `Criticize’ phase is presented. In particular, we introduce the Critical Retraining Strategy (CRS) that, unlike simply filtering pseudo labels using a fixed threshold (e.g., classification score) as in 2D semi-supervised tasks, leverages a learnable network to evaluate the contribution of unlabeled images at different training timestamps. This way, the noisy samples prohibitive to model evolution could be effectively suppressed. To validate our framework, we apply it to MonoDLE and MonoFlex. The two new detectors, dubbed 3DSeMo_DLE and 3DSeMo_FLEX, achieve state-of-the-art results with remarkable improvements for over 3.5% AP_3D/BEV (Easy) on KITTI, showing its effectiveness and generality. Code and models will be released.

arxiv情報

著者 Zhenyu Li,Zhipeng Zhang,Heng Fan,Yuan He,Ke Wang,Xianming Liu,Junjun Jiang
発行日 2023-03-20 16:28:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク