Unsupervised Person Re-Identification with Wireless Positioning under Weak Scene Labeling



要約:従来の無監督人物再識別方法は、異なるカメラの下で歩行者をマッチングするために視覚的手がかりしか使用しません。視覚データは基本的に隠蔽、ブラー、衣服の変化などに影響を受けやすいため、この欠陥を補うために異種データを導入することが有望な解決策です。全シーンラベリングに基づく一部の作品は、クロスドメイン人物再識別を支援するためにワイヤレス位置決めを導入していますが、監視シーン全体のGPSラベリングは煩雑です。このため、弱いシーンラベリング下で視覚データとワイヤレス位置情報を共に用いた無監督の人物識別を探求することを提案します。具体的には、新しい無監督のマルチモーダルトレーニングフレームワーク(UMTF)を提案し、視覚データとワイヤレス情報の相補性をモデル化します。UMTFには、マルチモーダルデータ関連戦略(MMDA)とマルチモーダルグラフニューラルネットワーク(MMGN)が含まれています。MMDAは、未ラベルのマルチモーダルデータ内の潜在的なデータ関連を探索します。一方、MMGNは、ワイヤレスデータのヒストグラム統計から学ばれた隣接行列に基づいて、ビデオグラフ内でマルチモーダルメッセージを伝播させます。ワイヤレスデータの視覚ノイズへの堅牢性と各種モジュールの協力により、UMTFは、データに人間のラベルが必要ないモデルを学習することができます。 WP-ReIDとDukeMTMC-VideoReIDの2つの難しいデータセットで行われた広範囲な実験結果は、提案手法の有効性を示しています。

– 従来の無監督人物再識別方法は、異なるカメラの下で歩行者をマッチングするために視覚的手がかりしか使用しない。
– 提案された手法は、視覚データとワイヤレス位置情報を共に使って無監督の人物識別を探求することを提案している。
– 新しい無監督のマルチモーダルトレーニングフレームワーク(UMTF)を提案しており、視覚データとワイヤレス情報の相補性をモデル化している。
– UMTFには、MMDA(マルチモーダルデータ関連戦略)とMMGN(マルチモーダルグラフニューラルネットワーク)が含まれている。
– 提案手法は、データに人間のラベルが必要ないモデルを学習することができる。
– 広範囲な実験結果は、提案手法の有効性を示している。


Existing unsupervised person re-identification methods only rely on visual clues to match pedestrians under different cameras. Since visual data is essentially susceptible to occlusion, blur, clothing changes, etc., a promising solution is to introduce heterogeneous data to make up for the defect of visual data. Some works based on full-scene labeling introduce wireless positioning to assist cross-domain person re-identification, but their GPS labeling of entire monitoring scenes is laborious. To this end, we propose to explore unsupervised person re-identification with both visual data and wireless positioning trajectories under weak scene labeling, in which we only need to know the locations of the cameras. Specifically, we propose a novel unsupervised multimodal training framework (UMTF), which models the complementarity of visual data and wireless information. Our UMTF contains a multimodal data association strategy (MMDA) and a multimodal graph neural network (MMGN). MMDA explores potential data associations in unlabeled multimodal data, while MMGN propagates multimodal messages in the video graph based on the adjacency matrix learned from histogram statistics of wireless data. Thanks to the robustness of the wireless data to visual noise and the collaboration of various modules, UMTF is capable of learning a model free of the human label on data. Extensive experimental results conducted on two challenging datasets, i.e., WP-ReID and DukeMTMC-VideoReID demonstrate the effectiveness of the proposed method.


著者 Yiheng Liu,Wengang Zhou,Qiaokang Xie,Houqiang Li
発行日 2023-04-05 11:07:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク