Large-scale Fully-Unsupervised Re-Identification

要約

完全に監視されていない人物および車両の再識別は、手動による注釈を必要とせず、監視、法医学、イベント理解、スマートシティに幅広く適用できるため、ますます注目を集めています。
しかし、従来技術のほとんどは、わずか数千のサンプルを含むデータセットで評価されてきました。
このような小規模データのセットアップでは、クラスタリングの結果を向上させるために、再ランキングなどの時間とメモリ使用量のコストがかかる手法を使用できることがよくあります。
さらに、以前の研究の中には、データセットごとに最適なクラスタリング ハイパー パラメーターを事前に選択するものもありますが、これは大規模で完全に教師なしのシナリオでは非現実的です。
これに関連して、この研究はより現実的なシナリオに取り組み、大規模なラベルのないデータから学ぶための 2 つの戦略を提案しています。
最初の戦略では、近傍関係に違反することなく、反復ごとにデータセットのサイズを削減するために、ローカル近傍サンプリングを実行します。
2 番目の戦略は、新しい再ランキング手法を利用するもので、時間の上限の複雑さが低くなり、k << n の場合にメモリの複雑さが O(n^2) から O(kn) に軽減されます。 クラスタリング アルゴリズムの特定のハイパーパラメータ値の事前選択を回避するために、サンプルの多様性を活用し、ノイズの多いラベリングに対して堅牢な学習を維持するために、トレーニング中に密度パラメータを調整する新しいスケジューリング アルゴリズムも提示します。 最後に、さまざまなモデルによって学習された補完的な知識により、ハイパーパラメーターや重み付けの最適化を必要とせず、バックボーン間で予測される擬似ラベルの順列に依存する共同トレーニング戦略も導入します。 提案された方法論は、より高速でメモリ効率の高い再ランキング戦略と、大規模でノイズの多いデータセットを備えた、よく知られたベンチマークや困難な大規模 Veri-Wild データセットにおいて、最先端の方法よりも優れたパフォーマンスを発揮します。 堅牢なアンサンブルベースの学習アプローチ。

要約(オリジナル)

Fully-unsupervised Person and Vehicle Re-Identification have received increasing attention due to their broad applicability in surveillance, forensics, event understanding, and smart cities, without requiring any manual annotation. However, most of the prior art has been evaluated in datasets that have just a couple thousand samples. Such small-data setups often allow the use of costly techniques in time and memory footprints, such as Re-Ranking, to improve clustering results. Moreover, some previous work even pre-selects the best clustering hyper-parameters for each dataset, which is unrealistic in a large-scale fully-unsupervised scenario. In this context, this work tackles a more realistic scenario and proposes two strategies to learn from large-scale unlabeled data. The first strategy performs a local neighborhood sampling to reduce the dataset size in each iteration without violating neighborhood relationships. A second strategy leverages a novel Re-Ranking technique, which has a lower time upper bound complexity and reduces the memory complexity from O(n^2) to O(kn) with k << n. To avoid the pre-selection of specific hyper-parameter values for the clustering algorithm, we also present a novel scheduling algorithm that adjusts the density parameter during training, to leverage the diversity of samples and keep the learning robust to noisy labeling. Finally, due to the complementary knowledge learned by different models, we also introduce a co-training strategy that relies upon the permutation of predicted pseudo-labels, among the backbones, with no need for any hyper-parameters or weighting optimization. The proposed methodology outperforms the state-of-the-art methods in well-known benchmarks and in the challenging large-scale Veri-Wild dataset, with a faster and memory-efficient Re-Ranking strategy, and a large-scale, noisy-robust, and ensemble-based learning approach.

arxiv情報

著者 Gabriel Bertocco,Fernanda Andaló,Terrance E. Boult,Anderson Rocha
発行日 2023-07-26 16:19:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク