Self-supervised cross-modality learning for uncertainty-aware object detection and recognition in applications which lack pre-labelled training data

要約

この論文では、注釈付きのトレーニング データセットが不足しているアプリケーションにおいて、不確実性を認識したディープ ニューラル ネットワークをトレーニングして、2D RGB 画像内のオブジェクトを検出、認識、位置特定する方法を示します。
私たちは、自己監視型の教師と生徒のパイプラインを提案します。このパイプラインでは、少数のラベル付き 2D サムネイルだけでトレーニングされた比較的単純な教師分類器が、ラベルのない RGB-D データの大部分を自動的に処理して、修正された YOLOv3 アーキテクチャに基づいて生徒ネットワークを指導します。

まず、逆投影による 3D オブジェクト検出を使用して、2D 検出および位置特定情報を自動的に抽出し、学生ネットワークに教えます。
次に、少数の手作業でラベル付けされた画像に対する最小限のトレーニングを備えた、弱教師付き 2D サムネイル分類器を使用して、オブジェクト カテゴリ認識を学習します。
3 番目に、ガウス プロセス GP を使用して堅牢な不確実性推定機能をエンコードして教え、学生が各分類の信頼スコアを出力できるようにします。
結果として得られる学生は、同じ量のラベル付きデータで直接トレーニングされた同じ YOLO アーキテクチャよりも大幅に優れたパフォーマンスを示します。
当社の GP ベースのアプローチは、複雑な工業用オブジェクトの分類に対して堅牢で有意義な不確実性の推定をもたらします。
エンドツーエンドのネットワークは、ロボット工学アプリケーションに必要なリアルタイム処理も可能です。
私たちの方法は、ラベル付きデータセットが通常利用できない多くの重要な産業タスクに適用できます。
この論文では、非常に乱雑で構造化されていないシーンにおける核混合廃棄物の検出、位置特定、およびオブジェクト カテゴリ認識の例を示します。
これは、多くの核保有国で複雑な環境修復の課題を引き起こしているレガシー核廃棄物のロボットによる分別と処理にとって非常に重要です。

要約(オリジナル)

This paper shows how an uncertainty-aware, deep neural network can be trained to detect, recognise and localise objects in 2D RGB images, in applications lacking annotated train-ng datasets. We propose a self-supervising teacher-student pipeline, in which a relatively simple teacher classifier, trained with only a few labelled 2D thumbnails, automatically processes a larger body of unlabelled RGB-D data to teach a student network based on a modified YOLOv3 architecture. Firstly, 3D object detection with back projection is used to automatically extract and teach 2D detection and localisation information to the student network. Secondly, a weakly supervised 2D thumbnail classifier, with minimal training on a small number of hand-labelled images, is used to teach object category recognition. Thirdly, we use a Gaussian Process GP to encode and teach a robust uncertainty estimation functionality, so that the student can output confidence scores with each categorization. The resulting student significantly outperforms the same YOLO architecture trained directly on the same amount of labelled data. Our GP-based approach yields robust and meaningful uncertainty estimations for complex industrial object classifications. The end-to-end network is also capable of real-time processing, needed for robotics applications. Our method can be applied to many important industrial tasks, where labelled datasets are typically unavailable. In this paper, we demonstrate an example of detection, localisation, and object category recognition of nuclear mixed-waste materials in highly cluttered and unstructured scenes. This is critical for robotic sorting and handling of legacy nuclear waste, which poses complex environmental remediation challenges in many nuclearised nations.

arxiv情報

著者 Irum Mehboob,Li Sun,Alireza Astegarpanah,Rustam Stolkin
発行日 2024-11-05 13:26:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.NE パーマリンク