Generalizable Re-Identification from Videos with Cycle Association

要約

本論文では、ラベル付けされていない動画像から一般化可能な人物再識別(re-ID)表現を学習することに興味を持つ。1)一般的な教師なし再識別の設定(訓練とテストセットは通常同じドメインの下にある)、2)一般的なドメイン汎化(DG)再識別の設定(訓練サンプルはラベル付き)と比較して、我々の新しいシナリオは、これらの主要課題を組み合わせたものである:訓練サンプルはラベルなしで、テストドメインと一致しない様々なドメインから収集されている。つまり、教師無しで表現を学習し、学習した表現を新規ドメインでの再識別に直接利用することを目的とする。この目的を達成するために、我々は2つの主要な貢献を行う。一つは、再識別のためのスケーラブルな自己教師付き学習法であるサイクルアソシエーション(CycAs)を提案し、もう一つは、提案手法に適した大規模なラベルなし再識別データセットであるLMP-videoを構築することである。具体的には、CycAsは時間的に連続するビデオフレーム間のインスタンスの関連付けのサイクル一貫性を強制することで再ID特徴を学習し、学習コストはデータサイズに対して線形であるため、大規模な学習が可能である。一方、LMP-videoは、1万以上のYoutube動画から切り出したラベルのない人物画像を5000万枚含む非常に大きなデータセットであり、自己教師付き学習の土壌として十分であるといえます。LMP-videoで学習させた結果、CycAsは新規ドメインに対して優れた汎化能力を持つことが分かった。その結果、教師あり学習による領域汎化モデルよりも優れた結果が得られることもある。また、CycAsは、Market-1501で82.2% Rank-1、MSMT17で49.0% Rank-1を達成し、最新の教師ありDG re-ID手法を凌駕していることが示されている。さらに、教師なし再識別法および事前学習と微調整のシナリオにおいても、CycAsの優位性を実証している。

要約(オリジナル)

In this paper, we are interested in learning a generalizable person re-identification (re-ID) representation from unlabeled videos. Compared with 1) the popular unsupervised re-ID setting where the training and test sets are typically under the same domain, and 2) the popular domain generalization (DG) re-ID setting where the training samples are labeled, our novel scenario combines their key challenges: the training samples are unlabeled, and collected form various domains which do no align with the test domain. In other words, we aim to learn a representation in an unsupervised manner and directly use the learned representation for re-ID in novel domains. To fulfill this goal, we make two main contributions: First, we propose Cycle Association (CycAs), a scalable self-supervised learning method for re-ID with low training complexity; and second, we construct a large-scale unlabeled re-ID dataset named LMP-video, tailored for the proposed method. Specifically, CycAs learns re-ID features by enforcing cycle consistency of instance association between temporally successive video frame pairs, and the training cost is merely linear to the data size, making large-scale training possible. On the other hand, the LMP-video dataset is extremely large, containing 50 million unlabeled person images cropped from over 10K Youtube videos, therefore is sufficient to serve as fertile soil for self-supervised learning. Trained on LMP-video, we show that CycAs learns good generalization towards novel domains. The achieved results sometimes even outperform supervised domain generalizable models. Remarkably, CycAs achieves 82.2\% Rank-1 on Market-1501 and 49.0\% Rank-1 on MSMT17 with zero human annotation, surpassing state-of-the-art supervised DG re-ID methods. Moreover, we also demonstrate the superiority of CycAs under the canonical unsupervised re-ID and the pretrain-and-finetune scenarios.

arxiv情報

著者 Zhongdao Wang,Zhaopeng Dou,Jingwei Zhang,Liang Zhen,Yifan Sun,Yali Li,Shengjin Wang
発行日 2022-11-07 16:21:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク