要約
最近示された生成拡散モデルの強みを考慮して、未解決の研究課題は \textit{これらのモデルによって生成された画像を使用して、より優れた視覚的表現を学習できるかどうか} です。
この生成的データ拡張は、より簡単な視覚タスクには十分かもしれませんが、より困難な識別タスクである着替え人物の再識別 (CC-ReID) に対するその有効性を調査します。
CC-ReID は、重複しないカメラに映っている人物を、カメラをまたいで着替える場合でも一致させることを目的としています。
現在の CC-ReID モデルは、現在の CC-ReID データセット内の衣類の多様性が限られているという制約を受けているだけでなく、正確な識別のために重要な個人的特徴を保持する追加データを生成することが現在の課題となっています。
この問題に対処するために、私たちは、事前トレーニングされた拡散モデルと大規模言語モデル (LLM) を活用して、さまざまな服装をした個人の多様な画像を正確に生成する新しいデータ拡張フレームワークである DLCR を提案します。
5 つのベンチマーク CC-ReID データセット (PRCC、CCVID、LaST、VC-Clothes、LTCC) の追加データを生成し、\textbf{衣服の多様性を \boldmath{$10$}x 増加させ、合計 \boldmath{$2.1$} 以上にします。
M 個の画像が生成されました}。
DLCR は、LLM を使用して構築された服装プロンプトを条件とした拡散ベースのテキストガイドによる修復を採用し、個人を特定できる特徴を維持しながら被験者の服装のみを変更する合成データを生成します。
このデータの大幅な増加に伴い、プログレッシブ学習とテスト時間予測の改良という 2 つの新しい戦略を導入し、それぞれトレーニング時間を短縮し、CC-ReID のパフォーマンスをさらに向上させます。
PRCC データセットでは、以前の最先端 (SOTA) 手法である CAL を DLCR で生成されたデータでトレーニングすることにより、$11.3\%$ というトップ 1 の精度の大幅な向上が得られました。
各データセットのコードと生成されたデータは、\url{https://github.com/CroitoruAlin/dlcr} で公開されています。
要約(オリジナル)
With the recent exhibited strength of generative diffusion models, an open research question is \textit{if images generated by these models can be used to learn better visual representations}. While this generative data expansion may suffice for easier visual tasks, we explore its efficacy on a more difficult discriminative task: clothes-changing person re-identification (CC-ReID). CC-ReID aims to match people appearing in non-overlapping cameras, even when they change their clothes across cameras. Not only are current CC-ReID models constrained by the limited diversity of clothing in current CC-ReID datasets, but generating additional data that retains important personal features for accurate identification is a current challenge. To address this issue we propose DLCR, a novel data expansion framework that leverages pre-trained diffusion and large language models (LLMs) to accurately generate diverse images of individuals in varied attire. We generate additional data for five benchmark CC-ReID datasets (PRCC, CCVID, LaST, VC-Clothes, and LTCC) and \textbf{increase their clothing diversity by \boldmath{$10$}x, totaling over \boldmath{$2.1$}M images generated}. DLCR employs diffusion-based text-guided inpainting, conditioned on clothing prompts constructed using LLMs, to generate synthetic data that only modifies a subject’s clothes while preserving their personally identifiable features. With this massive increase in data, we introduce two novel strategies – progressive learning and test-time prediction refinement – that respectively reduce training time and further boosts CC-ReID performance. On the PRCC dataset, we obtain a large top-1 accuracy improvement of $11.3\%$ by training CAL, a previous state of the art (SOTA) method, with DLCR-generated data. We publicly release our code and generated data for each dataset here: \url{https://github.com/CroitoruAlin/dlcr}.
arxiv情報
著者 | Nyle Siddiqui,Florinel Alin Croitoru,Gaurav Kumar Nayak,Radu Tudor Ionescu,Mubarak Shah |
発行日 | 2024-11-11 18:28:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google