Automated Multimodal Data Annotation via Calibration With Indoor Positioning System

要約

LiDAR とカメラ データの融合に基づく学習された物体検出方法には、ラベル付きのトレーニング サンプルが必要ですが、倉庫ロボット工学や自動インフラストラクチャなどのニッチなアプリケーションには、大規模な既存のデータセットでは利用できないセマンティック クラスが必要です。
したがって、マルチモーダルな物体検出データセットの迅速な作成を促進し、人間によるラベル付けの負担を軽減するために、新しい自動アノテーション パイプラインを提案します。
私たちの方法では、屋内測位システム (IPS) を使用して点群と画像の両方に対して正確な検出ラベルを生成し、手動による注釈を完全に排除します。
実験では、システムは人間のベースラインよりも 261.8 倍の速さで対象オブジェクトにアノテーションを付け、エンドツーエンドのデータセット作成を 61.5% 高速化しました。

要約(オリジナル)

Learned object detection methods based on fusion of LiDAR and camera data require labeled training samples, but niche applications, such as warehouse robotics or automated infrastructure, require semantic classes not available in large existing datasets. Therefore, to facilitate the rapid creation of multimodal object detection datasets and alleviate the burden of human labeling, we propose a novel automated annotation pipeline. Our method uses an indoor positioning system (IPS) to produce accurate detection labels for both point clouds and images and eliminates manual annotation entirely. In an experiment, the system annotates objects of interest 261.8 times faster than a human baseline and speeds up end-to-end dataset creation by 61.5%.

arxiv情報

著者 Ryan Rubel,Andrew Dudash,Mohammad Goli,James O’Hara,Karl Wunderlich
発行日 2023-12-06 16:54:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4.m パーマリンク