要約
RGB と NIR ステレオ イメージングを統合すると、相補的なスペクトル情報が提供され、厳しい照明条件下でのロボットの 3D 視覚が強化される可能性があります。
しかし、既存のデータセットとイメージング システムには、RGB 画像と NIR 画像の間のピクセル レベルの調整が不足しており、下流の視覚タスクに課題をもたらしています。
本稿では、移動ロボットに搭載されたピクセルアライメントRGB-NIRステレオカメラとLiDARセンサーを備えたロボットビジョンシステムを紹介します。
このシステムは、ピクセルが整列した RGB ステレオ画像、NIR ステレオ画像、および時間的に同期された LiDAR ポイントのペアを同時にキャプチャします。
ロボットの機動性を利用して、さまざまな照明条件下での連続ビデオ フレームを含むデータセットを提示します。
次に、ピクセル位置合わせされた RGB-NIR 画像を利用する 2 つの方法、RGB-NIR 画像融合方法と特徴融合方法を紹介します。
最初のアプローチでは、既存の RGB 事前トレーニング済み視覚モデルで、微調整を行わずに RGB-NIR 情報を直接利用できます。
2 番目のアプローチでは、既存の視覚モデルを微調整して、RGB-NIR 情報をより効果的に利用します。
実験結果は、さまざまな照明条件にわたってピクセル位置合わせされた RGB-NIR 画像を使用することの有効性を示しています。
要約(オリジナル)
Integrating RGB and NIR stereo imaging provides complementary spectral information, potentially enhancing robotic 3D vision in challenging lighting conditions. However, existing datasets and imaging systems lack pixel-level alignment between RGB and NIR images, posing challenges for downstream vision tasks. In this paper, we introduce a robotic vision system equipped with pixel-aligned RGB-NIR stereo cameras and a LiDAR sensor mounted on a mobile robot. The system simultaneously captures pixel-aligned pairs of RGB stereo images, NIR stereo images, and temporally synchronized LiDAR points. Utilizing the mobility of the robot, we present a dataset containing continuous video frames under diverse lighting conditions. We then introduce two methods that utilize the pixel-aligned RGB-NIR images: an RGB-NIR image fusion method and a feature fusion method. The first approach enables existing RGB-pretrained vision models to directly utilize RGB-NIR information without fine-tuning. The second approach fine-tunes existing vision models to more effectively utilize RGB-NIR information. Experimental results demonstrate the effectiveness of using pixel-aligned RGB-NIR images across diverse lighting conditions.
arxiv情報
著者 | Jinnyeong Kim,Seung-Hwan Baek |
発行日 | 2024-12-02 12:42:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google