Robots Autonomously Detecting People: A Multimodal Deep Contrastive Learning Method Robust to Intraclass Variations

要約

病院、長期治療施設、店舗、空港など、混雑した、または雑然とした人間中心の環境における人間のロボット検出は、人が他の人や物体によって遮られたり、服装や姿勢の違いによって変形したりする可能性があるため、困難を伴います。
また、照明が不十分なために識別可能な視覚的特徴が失われる可能性もあります。
この論文では、クラス内変動の下での人物検出に関する移動ロボットの問題に対処するための、新しいマルチモーダル人物検出アーキテクチャを紹介します。
1) 時間不変マルチモーダル対照学習 (TimCLR) として定義する独自の事前トレーニング手法、および 2) マルチモーダル高速 R-CNN (MFRCNN) 検出器を使用した 2 段階のトレーニング アプローチを提案します。
TimCLR は、教師なし学習を通じて、クラス内の変動のもとで不変である人物表現を学習します。
私たちのアプローチは、合成データの拡張に加えて、マルチモーダル画像シーケンス内の自然な変化から画像ペアを生成し、クロスモーダル特徴を対比して異なるモダリティ間の不変性を伝達するという点でユニークです。
これらの事前トレーニングされた特徴は、RGB-D 画像からの微調整と人物検出のために MFRCNN 検出器によって使用されます。
広範な実験により、人間中心の混雑した環境と乱雑な環境の両方における DL アーキテクチャのパフォーマンスが検証されました。
結果は、私たちの方法が、さまざまな照明条件で身体の遮蔽や姿勢の変形のある人物を検出する際の検出精度の点で、既存の単峰性および多峰性の人物検出アプローチよりも優れていることを示しています。

要約(オリジナル)

Robotic detection of people in crowded and/or cluttered human-centered environments including hospitals, long-term care, stores and airports is challenging as people can become occluded by other people or objects, and deform due to variations in clothing or pose. There can also be loss of discriminative visual features due to poor lighting. In this paper, we present a novel multimodal person detection architecture to address the mobile robot problem of person detection under intraclass variations. We present a two-stage training approach using 1) a unique pretraining method we define as Temporal Invariant Multimodal Contrastive Learning (TimCLR), and 2) a Multimodal Faster R-CNN (MFRCNN) detector. TimCLR learns person representations that are invariant under intraclass variations through unsupervised learning. Our approach is unique in that it generates image pairs from natural variations within multimodal image sequences, in addition to synthetic data augmentation, and contrasts crossmodal features to transfer invariances between different modalities. These pretrained features are used by the MFRCNN detector for finetuning and person detection from RGB-D images. Extensive experiments validate the performance of our DL architecture in both human-centered crowded and cluttered environments. Results show that our method outperforms existing unimodal and multimodal person detection approaches in terms of detection accuracy in detecting people with body occlusions and pose deformations in different lighting conditions.

arxiv情報

著者 Angus Fung,Beno Benhabib,Goldie Nejat
発行日 2024-02-13 20:07:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク