Towards Global Localization using Multi-Modal Object-Instance Re-Identification


再識別 (ReID) はコンピュータ ビジョンにおける重要な課題であり、主に歩行者と車両のコンテキストで研究されています。
ただし、自律探索、長期認識、シーン理解などのタスクに重要な影響を与える堅牢なオブジェクト インスタンス ReID は、まだ研究されていません。
この研究では、マルチモーダル RGB と深度情報を統合する新しいデュアルパス オブジェクト インスタンス再識別トランスフォーマー アーキテクチャを提案することで、このギャップに対処します。
深度データを活用することで、雑然としたシーンや照明条件が変化するシーン全体で ReID が向上することを実証します。
さらに、さまざまな視点にわたって正確なカメラの位置特定と姿勢の識別を可能にする、ReID ベースの位置特定フレームワークを開発します。
2 つのカスタム構築された RGB-D データセットと、オープンソースの TUM RGB-D データセットからの複数のシーケンスを使用してメソッドを検証します。
私たちのアプローチは、オブジェクト インスタンス ReID (mAP 75.18) と位置特定精度 (TUM-RGBD での成功率 83%) の両方で大幅な改善を示し、ロボットの知覚の進歩におけるオブジェクト ReID の重要な役割を強調しています。


Re-identification (ReID) is a critical challenge in computer vision, predominantly studied in the context of pedestrians and vehicles. However, robust object-instance ReID, which has significant implications for tasks such as autonomous exploration, long-term perception, and scene understanding, remains underexplored. In this work, we address this gap by proposing a novel dual-path object-instance re-identification transformer architecture that integrates multimodal RGB and depth information. By leveraging depth data, we demonstrate improvements in ReID across scenes that are cluttered or have varying illumination conditions. Additionally, we develop a ReID-based localization framework that enables accurate camera localization and pose identification across different viewpoints. We validate our methods using two custom-built RGB-D datasets, as well as multiple sequences from the open-source TUM RGB-D datasets. Our approach demonstrates significant improvements in both object instance ReID (mAP of 75.18) and localization accuracy (success rate of 83% on TUM-RGBD), highlighting the essential role of object ReID in advancing robotic perception. Our models, frameworks, and datasets have been made publicly available.


著者 Aneesh Chavan,Vaibhav Agrawal,Vineeth Bhat,Sarthak Chittawar,Siddharth Srivastava,Chetan Arora,K Madhava Krishna
発行日 2024-09-18 14:15:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: 68T40, cs.CV, cs.RO, I.2.10 パーマリンク