要約
マルチモーダル物体検出は、リモートセンシングにおいて有望であることが示されています。
しかし、マルチモーダル データは、モダリティがセル間の厳密な調整を欠いており、異なるモダリティ間で不一致が生じるという低品質の問題に頻繁に遭遇します。
この論文では、1 つのモダリティのみが対象物体を含み、他のモダリティが重要なコンテキスト情報を提供するマルチモーダル物体検出を調査します。
我々は、文脈上のバイナリ情報を確率マップに変換することによって、位置合わせの問題を解決することを提案する。
次に、DOTA データセットに関する広範な実験で検証した初期の融合アーキテクチャを提案します。
要約(オリジナル)
Multimodal object detection has shown promise in remote sensing. However, multimodal data frequently encounter the problem of low-quality, wherein the modalities lack strict cell-to-cell alignment, leading to mismatch between different modalities. In this paper, we investigate multimodal object detection where only one modality contains the target object and the others provide crucial contextual information. We propose to resolve the alignment problem by converting the contextual binary information into probability maps. We then propose an early fusion architecture that we validate with extensive experiments on the DOTA dataset.
arxiv情報
著者 | Hafsa El Hafyani,Bastien Pasdeloup,Camille Yver,Pierre Romenteau |
発行日 | 2024-05-24 14:28:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google