Fusion for Visual-Infrared Person ReID in Real-World Surveillance Using Corrupted Multimodal Data

要約

【タイトル】
実世界監視での汚染された多モーダルデータを用いた視覚的赤外線人物再識別の融合

【要約】
・V-I ReIDとは、RGBおよびIRカメラのネットワークでキャプチャされた個人の画像を一致させることを目的とする。
・現実世界の状況では、画像がぼやけたり、ノイズや気象条件の影響によって汚染されるため、VおよびIモダリティの間には重大な違いがある。そのため、最新のV-I ReIDモデルでも、汚染されたモダリティ情報を利用して高い精度を維持することができない。
・本研究では、MMSFと呼ばれる効率的なマルチモーダルV-I ReIDモデルを提案しており、汚染されたマルチモーダル画像に対する改善された堅牢性のためにモダリティ固有の知識を保持する。
・さらに、3つの最新の注意マルチモーダル融合モデルを適用して、V-I ReIDの汚染されたマルチモーダルデータに対処し、各モダリティの重要度を動的にバランスさせることができる。
・最近、V設定の難しい現実世界のシナリオでReIDモデルの堅牢性を評価するための評価プロトコルが提案されている。ただし、これらのプロトコルは単一モーダルVの設定に限定されている。V-I ReIDモデルの現実的な評価のために、VおよびIカメラが共置されている(CL)か、共置されていない(NCL)場合の新しい汚染されたデータセットを提案する。
・最後に、汚染されたマルチモーダル画像に対するReIDモデルの堅牢性を向上させるためのMasking and Local Multimodal Data Augmentation (ML-MDA)戦略の利点を探る。
・SYSU-MM01、RegDB、ThermalWORLDデータセットのクリーンおよび汚染バージョンでの実験結果から、実世界の運用条件下で良好なパフォーマンスを発揮する多モーダルV-I ReIDモデルが明らかになった。特に、ML-MDAはV-I人物再識別システムにとって、汚染されたマルチモーダル画像を処理する際に高い精度と堅牢性を維持するための重要な戦略であり、MMSFモデルはCLおよびNCLカメラシナリオの下で他のすべてのメソッドを上回っている。

要約(オリジナル)

Visible-infrared person re-identification (V-I ReID) seeks to match images of individuals captured over a distributed network of RGB and IR cameras. The task is challenging due to the significant differences between V and I modalities, especially under real-world conditions, where images are corrupted by, e.g, blur, noise, and weather. Indeed, state-of-art V-I ReID models cannot leverage corrupted modality information to sustain a high level of accuracy. In this paper, we propose an efficient model for multimodal V-I ReID — named Multimodal Middle Stream Fusion (MMSF) — that preserves modality-specific knowledge for improved robustness to corrupted multimodal images. In addition, three state-of-art attention-based multimodal fusion models are adapted to address corrupted multimodal data in V-I ReID, allowing to dynamically balance each modality importance. Recently, evaluation protocols have been proposed to assess the robustness of ReID models under challenging real-world scenarios. However, these protocols are limited to unimodal V settings. For realistic evaluation of multimodal (and cross-modal) V-I person ReID models, we propose new challenging corrupted datasets for scenarios where V and I cameras are co-located (CL) and not co-located (NCL). Finally, the benefits of our Masking and Local Multimodal Data Augmentation (ML-MDA) strategy are explored to improve the robustness of ReID models to multimodal corruption. Our experiments on clean and corrupted versions of the SYSU-MM01, RegDB, and ThermalWORLD datasets indicate the multimodal V-I ReID models that are more likely to perform well in real-world operational conditions. In particular, our ML-MDA is an important strategy for a V-I person ReID system to sustain high accuracy and robustness when processing corrupted multimodal images. Also, our multimodal ReID model MMSF outperforms every method under CL and NCL camera scenarios.

arxiv情報

著者 Arthur Josi,Mahdi Alehdaghi,Rafael M. O. Cruz,Eric Granger
発行日 2023-04-29 18:18:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク