Fill-Up: Balancing Long-Tailed Data with Generative Models

要約

最新のテキストから画像への合成モデルは、並外れたレベルのフォトリアリズムを達成し、任意のテキスト記述から高品質の画像を生成します。
優れた合成能力を考慮すると、いくつかの研究で、生成されたデータを画像認識に利用する有望な結果が示されています。
ただし、現実世界のデータを大量に消費する状況 (例: 少数ショットまたはロングテール シナリオ) を既存のアプローチで直接補完すると、実際のデータの分布を完全に反映することが難しいため、パフォーマンスの向上はわずかです。
この論文では、広範な実験を通じて、Textual Inversion を使用したロングテール状況向けの新しい画像合成パイプラインを提案します。
この研究は、テキスト反転テキスト トークンから生成された画像が実際のドメインと効果的に一致し、標準的な ResNet50 バックボーンの認識能力を大幅に強化することを示しています。
また、現実世界のデータの不均衡シナリオは、不均衡なデータを合成画像で埋めることでうまく緩和できることも示します。
ロングテール認識の分野の技術と組み合わせて、私たちの方法は、ゼロからトレーニングした場合、標準のロングテールベンチマークで最先端の結果を達成します。

要約(オリジナル)

Modern text-to-image synthesis models have achieved an exceptional level of photorealism, generating high-quality images from arbitrary text descriptions. In light of the impressive synthesis ability, several studies have exhibited promising results in exploiting generated data for image recognition. However, directly supplementing data-hungry situations in the real-world (e.g. few-shot or long-tailed scenarios) with existing approaches result in marginal performance gains, as they suffer to thoroughly reflect the distribution of the real data. Through extensive experiments, this paper proposes a new image synthesis pipeline for long-tailed situations using Textual Inversion. The study demonstrates that generated images from textual-inverted text tokens effectively aligns with the real domain, significantly enhancing the recognition ability of a standard ResNet50 backbone. We also show that real-world data imbalance scenarios can be successfully mitigated by filling up the imbalanced data with synthetic images. In conjunction with techniques in the area of long-tailed recognition, our method achieves state-of-the-art results on standard long-tailed benchmarks when trained from scratch.

arxiv情報

著者 Joonghyuk Shin,Minguk Kang,Jaesik Park
発行日 2023-06-12 16:01:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク