Combining human parsing with analytical feature extraction and ranking schemes for high-generalization person reidentification

要約

個人識別(re-ID)は、科学と社会の両方にとって重要であるため、近年ますます注目を集めています。
機械学習、特にディープラーニング(DL)は、研究がベンチマークデータセットで前例のない精度レベルを達成できるようにする主要なre-idツールになりました。
ただし、DLモデルの一般化が不十分であるという既知の問題があります。
つまり、あるデータセットで高精度を達成するようにトレーニングされたモデルは、他のデータセットではパフォーマンスが低く、再トレーニングが必要です。
この問題に対処するために、高度な一般化の大きな可能性を示すトレーニング可能なパラメーターのないモデルを提示します。
これは、完全に分析的な特徴抽出と類似性のランク付けスキームを、初期のサブ領域分類を取得するために使用されるDLベースの人間の解析と組み合わせます。
このような組み合わせにより、既存の分析メソッドの欠点が大幅に解消されることを示します。
人間が読める類似度が関連付けられた、解釈可能な色とテクスチャの機能を使用します。
提案された方法を検証するために、Market1501およびCUHK03データセットで実験を行い、DLモデルと同等の競争力のあるランク1の精度を達成します。
最も重要なことは、転移学習タスクに適用した場合、私たちの方法が63.9%と93.5%のランク1クロスドメイン精度を達成することを示しています。
これは、以前に報告された30〜50%の転送精度よりも大幅に高くなっています。
モデルをさらに改善するために新しい機能を追加する潜在的な方法について説明します。
また、口頭での説明から人間が生成したクエリを構築して、クエリ画像なしで検索を実行するための解釈可能な機能の利点も示します。

要約(オリジナル)

Person reidentification (re-ID) has been receiving increasing attention in recent years due to its importance for both science and society. Machine learning and particularly Deep Learning (DL) has become the main re-id tool that allowed researches to achieve unprecedented accuracy levels on benchmark datasets. However, there is a known problem of poor generalization of DL models. That is, models trained to achieve high accuracy on one dataset perform poorly on other ones and require re-training. To address this issue, we present a model without trainable parameters which shows great potential for high generalization. It combines a fully analytical feature extraction and similarity ranking scheme with DL-based human parsing used to obtain the initial subregion classification. We show that such combination to a high extent eliminates the drawbacks of existing analytical methods. We use interpretable color and texture features which have human-readable similarity measures associated with them. To verify the proposed method we conduct experiments on Market1501 and CUHK03 datasets achieving competitive rank-1 accuracy comparable with that of DL-models. Most importantly we show that our method achieves 63.9% and 93.5% rank-1 cross-domain accuracy when applied to transfer learning tasks. It is significantly higher than previously reported 30-50% transfer accuracy. We discuss the potential ways of adding new features to further improve the model. We also show the advantage of interpretable features for constructing human-generated queries from verbal description to conduct search without a query image.

arxiv情報

著者 Nikita Gabdullin
発行日 2022-07-28 17:22:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク