An Empirical Study of Pseudo-Labeling for Image-based 3D Object Detection

要約

画像ベースの 3D 検出は、自動運転の認識システムに不可欠なコンポーネントです。
ただし、トレーニング データが限られていることが主な理由の 1 つであり、満足のいくパフォーマンスは得られません。
残念ながら、3D 空間内のオブジェクトに注釈を付けるのは非常に時間とリソースを消費するため、トレーニング セットを任意に拡張することは困難です。
この作業では、半教師付きの方法に焦点を当て、ラベル付けされていないデータを活用するためのより安価な代替手段、つまり疑似ラベル付けの実現可能性を探ります。
この目的のために、疑似ラベルがさまざまな設定の下でベースライン モデルに効果的な監視を提供できるかどうかを調査するための広範な実験を行います。
実験結果は、画像ベースの 3D 検出のための疑似ラベリング メカニズムの有効性を示すだけではありません (たとえば、単眼設定では、KITTI-3D テスト セットで中程度のレベルで 20.23 AP を達成し、ベルとホイッスルなしでベースライン モデルを改善します)。
6.03 AP) だけでなく、いくつかの興味深い注目すべき発見も示しています (たとえば、疑似ラベルでトレーニングされたモデルは、同じトレーニング データに基づくグラウンド トゥルース アノテーションでトレーニングされたモデルよりも優れたパフォーマンスを発揮します)。
この作業が、半監視下の設定で画像ベースの 3D 検出コミュニティに洞察を提供できることを願っています。
コード、疑似ラベル、事前トレーニング済みモデルは公開されます。

要約(オリジナル)

Image-based 3D detection is an indispensable component of the perception system for autonomous driving. However, it still suffers from the unsatisfying performance, one of the main reasons for which is the limited training data. Unfortunately, annotating the objects in the 3D space is extremely time/resource-consuming, which makes it hard to extend the training set arbitrarily. In this work, we focus on the semi-supervised manner and explore the feasibility of a cheaper alternative, i.e. pseudo-labeling, to leverage the unlabeled data. For this purpose, we conduct extensive experiments to investigate whether the pseudo-labels can provide effective supervision for the baseline models under varying settings. The experimental results not only demonstrate the effectiveness of the pseudo-labeling mechanism for image-based 3D detection (e.g. under monocular setting, we achieve 20.23 AP for moderate level on the KITTI-3D testing set without bells and whistles, improving the baseline model by 6.03 AP), but also show several interesting and noteworthy findings (e.g. the models trained with pseudo-labels perform better than that trained with ground-truth annotations based on the same training data). We hope this work can provide insights for the image-based 3D detection community under a semi-supervised setting. The codes, pseudo-labels, and pre-trained models will be publicly available.

arxiv情報

著者 Xinzhu Ma,Yuan Meng,Yinmin Zhang,Lei Bai,Jun Hou,Shuai Yi,Wanli Ouyang
発行日 2022-08-15 12:17:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク