要約
可視赤外線ビデオ人物再識別(re-ID)では、複雑なシーン(モダリティ、カメラビュー、歩行者のポーズ、背景など)の変化に影響されない特徴を抽出し、動き情報をマイニングして活用することが鍵となります。
クロスモーダルな歩行者の身元照合を解決します。
この目的を達成するために、本論文では、敵対的自己攻撃防御と時空間関係マイニングという新しい観点から、新しい可視赤外線ビデオ人物再ID法を提案する。
この研究では、視点、姿勢、背景、モーダルの不一致の変化が、個人のアイデンティティの特徴に混乱を引き起こす主な要因として考慮されています。
トレーニング サンプルに含まれるこのような干渉情報は、敵対的な摂動として使用されます。
これらの不利な要因に対してモデルをより堅牢にするために、トレーニング中に re-ID モデルに対して敵対的攻撃を実行します。
敵対的摂動による攻撃は、敵対的サンプルを生成せずに、入力サンプルに含まれる干渉情報を活性化することによって導入されるため、敵対的自己攻撃と呼ぶことができる。
この設計により、敵対的な攻撃と防御を 1 つのフレームワークに統合できます。
この論文はさらに、ビデオ シーケンス内の情報を使用するための時空間情報ガイド付き特徴表現ネットワークを提案します。
ネットワークは、ビデオ フレーム シーケンスに含まれる情報を抽出するだけでなく、空間内のローカル情報の関係を使用して、より堅牢な特徴を抽出するようにネットワークをガイドします。
提案された方法は、大規模なクロスモダリティ ビデオ データセットに対して説得力のあるパフォーマンスを示します。
提案手法のソースコードはhttps://github.com/lhf12278/xxxで公開する予定です。
要約(オリジナル)
In visible-infrared video person re-identification (re-ID), extracting features not affected by complex scenes (such as modality, camera views, pedestrian pose, background, etc.) changes, and mining and utilizing motion information are the keys to solving cross-modal pedestrian identity matching. To this end, the paper proposes a new visible-infrared video person re-ID method from a novel perspective, i.e., adversarial self-attack defense and spatial-temporal relation mining. In this work, the changes of views, posture, background and modal discrepancy are considered as the main factors that cause the perturbations of person identity features. Such interference information contained in the training samples is used as an adversarial perturbation. It performs adversarial attacks on the re-ID model during the training to make the model more robust to these unfavorable factors. The attack from the adversarial perturbation is introduced by activating the interference information contained in the input samples without generating adversarial samples, and it can be thus called adversarial self-attack. This design allows adversarial attack and defense to be integrated into one framework. This paper further proposes a spatial-temporal information-guided feature representation network to use the information in video sequences. The network cannot only extract the information contained in the video-frame sequences but also use the relation of the local information in space to guide the network to extract more robust features. The proposed method exhibits compelling performance on large-scale cross-modality video datasets. The source code of the proposed method will be released at https://github.com/lhf12278/xxx.
arxiv情報
著者 | Huafeng Li,Le Xu,Yafei Zhang,Dapeng Tao,Zhengtao Yu |
発行日 | 2023-08-11 09:15:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google