Multimodal Object Detection using Depth and Image Data for Manufacturing Parts

要約

製造には、多様な種類の製造部品とコンポーネントの正確なピッキングと取り扱いのための信頼できるオブジェクト検出方法が必要です。
従来のオブジェクト検出方法は、カメラからの2D画像のみまたはLIDARSまたは同様の3Dセンサーからの3Dデータのみを使用します。
ただし、これらのセンサーにはそれぞれ弱点と制限があります。
カメラには深さの知覚がなく、3Dセンサーには通常、色情報が含まれていません。
これらの弱点は、産業製造システムの信頼性と堅牢性を損なう可能性があります。
これらの課題に対処するために、この作業は、赤緑色の青(RGB)カメラと3Dポイントクラウドセンサーを組み合わせたマルチセンサーシステムを提案しています。
2つのセンサーは、2つのハードウェアデバイスからキャプチャされたマルチモーダルデータの正確なアライメントのために校正されています。
RGBと深度データの両方を処理するために、新しいマルチモーダルオブジェクト検出方法が開発されています。
このオブジェクト検出器は、もともとカメラ画像のみを処理するように設計された高速のR-CNNベースラインに基づいています。
結果は、マルチモーダルモデルが、確立されたオブジェクト検出メトリックの深さのみおよびRGBのみのベースラインを大幅に上回ることを示しています。
より具体的には、マルチモーダルモデルはMAPを13%改善し、RGBのみのベースラインと比較して平均精度を11.8%上昇させます。
深さのみのベースラインと比較して、MAPを78%改善し、平均精度を57%上昇させます。
したがって、この方法は、スマートな製造アプリケーションにサービスを提供するより信頼性が高く堅牢なオブジェクト検出を促進します。

要約(オリジナル)

Manufacturing requires reliable object detection methods for precise picking and handling of diverse types of manufacturing parts and components. Traditional object detection methods utilize either only 2D images from cameras or 3D data from lidars or similar 3D sensors. However, each of these sensors have weaknesses and limitations. Cameras do not have depth perception and 3D sensors typically do not carry color information. These weaknesses can undermine the reliability and robustness of industrial manufacturing systems. To address these challenges, this work proposes a multi-sensor system combining an red-green-blue (RGB) camera and a 3D point cloud sensor. The two sensors are calibrated for precise alignment of the multimodal data captured from the two hardware devices. A novel multimodal object detection method is developed to process both RGB and depth data. This object detector is based on the Faster R-CNN baseline that was originally designed to process only camera images. The results show that the multimodal model significantly outperforms the depth-only and RGB-only baselines on established object detection metrics. More specifically, the multimodal model improves mAP by 13% and raises Mean Precision by 11.8% in comparison to the RGB-only baseline. Compared to the depth-only baseline, it improves mAP by 78% and raises Mean Precision by 57%. Hence, this method facilitates more reliable and robust object detection in service to smart manufacturing applications.

arxiv情報

著者 Nazanin Mahjourian,Vinh Nguyen
発行日 2025-03-27 19:10:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク