Benchmarking and Analyzing Generative Data for Visual Recognition

要約

大規模な事前トレーニング済み生成モデルの進歩により、視覚認識における効果的なデータ ジェネレーターとしての可能性が拡大しました。
この研究では、主に外部データを利用するパラダイム (\つまり、生成 \vs 検索 \vs オリジナル) を比較しながら、生成画像の影響を詳しく調査しています。
私たちの主な貢献は次のとおりです: \textbf{1) GenBench の構築:} 私たちは、さまざまな視覚認識タスクにわたって生成データを評価するために、2548 カテゴリを持つ 22 のデータセットで構成される広範なベンチマークである \textbf{GenBench} を考案しました。
\textbf{2) CLER スコア:} 既存の指標 (\例: FID、CLIP スコア) と下流の認識パフォーマンスとの相関関係が不十分であることに対処するために、生成データの認識効率を示すトレーニング不要の指標である \textbf{CLER} を提案します。
トレーニング前のタスク。
\textbf{3) 新しいベースライン:} 生成データと同じ外部プールから取得したデータとの比較は、生成データの固有の特性を解明するのに役立ちます。
\textbf{4) 外部知識の挿入:} テキスト反転を介してカテゴリごとに特別なトークンの埋め込みを微調整することにより、低解像度の参照画像を処理する場合を除き、17 のデータセット全体でパフォーマンスが向上します。
当社の徹底的なベンチマークと分析は、視覚認識における生成データの可能性に焦点を当て、将来の調査のための重要な課題を特定します。

要約(オリジナル)

Advancements in large pre-trained generative models have expanded their potential as effective data generators in visual recognition. This work delves into the impact of generative images, primarily comparing paradigms that harness external data (\ie generative \vs retrieval \vs original). Our key contributions are: \textbf{1) GenBench Construction:} We devise \textbf{GenBench}, a broad benchmark comprising 22 datasets with 2548 categories, to appraise generative data across various visual recognition tasks. \textbf{2) CLER Score:} To address the insufficient correlation of existing metrics (\eg, FID, CLIP score) with downstream recognition performance, we propose \textbf{CLER}, a training-free metric indicating generative data’s efficiency for recognition tasks prior to training. \textbf{3) New Baselines:} Comparisons of generative data with retrieved data from the same external pool help to elucidate the unique traits of generative data. \textbf{4) External Knowledge Injection:} By fine-tuning special token embeddings for each category via Textual Inversion, performance improves across 17 datasets, except when dealing with low-resolution reference images. Our exhaustive benchmark and analysis spotlight generative data’s promise in visual recognition, while identifying key challenges for future investigation.

arxiv情報

著者 Bo Li,Haotian Liu,Liangyu Chen,Yong Jae Lee,Chunyuan Li,Ziwei Liu
発行日 2023-07-25 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク