要約
マルチスペクトル歩行者検出は、RGB モダリティと熱モダリティ間の補完的な情報により、24 時間のアプリケーションにとって魅力的です。
しかし、現在のモデルは、特に統計的に偏ったデータセットから学習したモダリティの偏りにより、明らかな場合に歩行者を検出できないことがよくあります。
これらの問題から、補完情報そのものを理解することは視覚のみのモデルでは難しいのではないかと予想されます。
したがって、我々は、セマンティックレベルで相補的な情報を理解し、融合プロセスをさらに強化するために大規模言語モデル(LLM)を組み込んだ、新しいマルチスペクトル思考連鎖検出(MSCoTDet)フレームワークを提案します。
具体的には、各 RGB および熱モダリティで歩行者のテキスト説明を生成し、マルチスペクトル思考連鎖 (MSCoT) プロンプトを設計します。これは、セマンティック レベルでクロスモーダル推論を促進するための段階的なプロセスをモデル化し、実行します。
正確な検出。
さらに、視覚による検出と言語による検出の融合を可能にする、言語によるマルチモーダル フュージョン (LMF) 戦略を設計します。
広範な実験により、MSCoTDet がマルチスペクトル歩行者検出を向上させることが検証されています。
要約(オリジナル)
Multispectral pedestrian detection is attractive for around-the-clock applications due to the complementary information between RGB and thermal modalities. However, current models often fail to detect pedestrians in obvious cases, especially due to the modality bias learned from statistically biased datasets. From these problems, we anticipate that maybe understanding the complementary information itself is difficult to achieve from vision-only models. Accordingly, we propose a novel Multispectral Chain-of-Thought Detection (MSCoTDet) framework, which incorporates Large Language Models (LLMs) to understand the complementary information at the semantic level and further enhance the fusion process. Specifically, we generate text descriptions of the pedestrian in each RGB and thermal modality and design a Multispectral Chain-of-Thought (MSCoT) prompting, which models a step-by-step process to facilitate cross-modal reasoning at the semantic level and perform accurate detection. Moreover, we design a Language-driven Multi-modal Fusion (LMF) strategy that enables fusing vision-driven and language-driven detections. Extensive experiments validate that MSCoTDet improves multispectral pedestrian detection.
arxiv情報
著者 | Taeheon Kim,Sangyun Chung,Damin Yeom,Youngjoon Yu,Hak Gu Kim,Yong Man Ro |
発行日 | 2024-03-22 13:50:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google