要約
日常のオブジェクトのマルチスペクトルミリ波(mmwave)画像の最初のデータセットであるMitoを紹介します。
可視光とは異なり、mmwave信号は日常の閉塞(段ボール箱、布、プラスチックなど)を介して画像化できます。
ただし、公開されているMMWave画像の不足と、MMWaveシグナルの収集と処理における学際的な課題により、コンピュータービジョン研究者がMMWAVEベースの非視覚認識アルゴリズムとモデルを開発することは今日も困難です。
これらの課題を克服するために、MMWaveイメージング用の実際のデータセットとオープンソースシミュレーションツールを紹介します。
データセットは、異なる周波数とRGB-Dカメラで動作する2つのMMWaveレーダーを備えたUR5ロボットアームを使用して取得されます。
信号処理パイプラインを介して、ロボット工学操作の標準データセットであるYCBデータセットの76を超えるオブジェクトから580を超える実世界の3D MMWave画像をキャプチャして作成します。
RGB-D画像とグラウンドトゥルースセグメンテーションマスクだけでなく、視線および非視線で現実世界のMMWave画像を提供します。
また、3Dトライアングルメッシュの合成MMWAVE画像を生成するために使用できるオープンソースシミュレーションツールも開発します。これは、実際のMMWave画像と比較した場合、94%のFスコアの中央値を達成します。
このデータセットとシミュレーションツールの有用性は、視線以外の複数のCVタスクにおける有用性を示しています。
まず、セグメントAnything Model(SAM)を使用してMMWave画像のオブジェクトセグメンテーションを実行し、92.6%と64%の精度の中央値とリコールを実現します。
第二に、非表示でオブジェクトを認識できる分類子をトレーニングします。
合成画像でトレーニングされており、実際の画像を85%の精度で分類できます。
MITOは、カメラベースのデータセットがフィールドを形成する方法と同様に、視覚的ではない知覚を開発する際のコンピュータービジョン研究者にとって貴重なリソースになると考えています。
要約(オリジナル)
We present MITO, the first dataset of multi-spectral millimeter-wave (mmWave) images of everyday objects. Unlike visible light, mmWave signals can image through everyday occlusions (e.g., cardboard boxes, fabric, plastic). However, due to the dearth of publicly-available mmWave images and the interdisciplinary challenges in collecting and processing mmWave signals, it remains difficult today for computer vision researchers to develop mmWave-based non-line-of-sight perception algorithms and models. To overcome these challenges, we introduce a real-world dataset and open-source simulation tool for mmWave imaging. The dataset is acquired using a UR5 robotic arm with two mmWave radars operating at different frequencies and an RGB-D camera. Through a signal processing pipeline, we capture and create over 580 real-world 3D mmWave images from over 76 different objects in the YCB dataset, a standard dataset for robotics manipulation. We provide real-world mmWave images in line-of-sight and non-line-of-sight, as well as RGB-D images and ground truth segmentation masks. We also develop an open-source simulation tool that can be used to generate synthetic mmWave images for any 3D triangle mesh, which achieves a median F-Score of 94% when compared to real-world mmWave images. We show the usefulness of this dataset and simulation tool in multiple CV tasks in non-line-of-sight. First, we perform object segmentation for mmWave images using the segment anything model (SAM), and achieve a median precision and recall of 92.6% and 64%. Second, we train a classifier that can recognize objects in non-line-of-sight. It is trained on synthetic images and can classify real-world images with 85% accuracy. We believe MITO will be a valuable resource for computer vision researchers in developing non-line-of-sight perception, similar to how early camera-based datasets shaped the field.
arxiv情報
著者 | Laura Dodds,Tara Boroushaki,Fadel Adib |
発行日 | 2025-02-14 16:12:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google