Text-Guided Mixup Towards Long-Tailed Image Categorization

要約

多くの実世界のアプリケーションでは、トレーニング データのクラス ラベルの頻度分布がロングテール分布を示す可能性があり、大量のバランスのとれたデータを必要とするディープ ニューラル ネットワークをトレーニングする従来のアプローチに課題をもたらします。
クラス ラベルの分布のバランスを取るためのデータの収集とラベル付けは、コストと時間がかかる場合があります。
ディープ ニューラル ネットワークに適用されるアンサンブル学習、再バランス戦略、または微調整を可能にする既存のソリューションの多くは、クラスのサブセット全体にわたる少数のクラス サンプルの不活性な問題によって制限されています。
最近、CLIP のような視覚言語モデルは、画像とテキストのペアの視覚と言語の特徴の間の類似性を把握することにより、ゼロショットまたは少数ショット学習の効果的なソリューションとして観察されています。
大規模な事前トレーニング済み視覚言語モデルには、マイナークラスにとって貴重なサイドテキスト情報が含まれている可能性があることを考慮して、テキスト監視を活用してロングテール学習の課題に取り組むことを提案します。
具体的には、事前訓練されたテキストエンコーダによって認識されるクラス間の意味論的関係を利用して、ロングテール問題を軽減するのに役立つ、新しいテキストガイド付きミックスアップ手法を提案します。
ベンチマークのロングテールタスクに関する私たちの実証研究は、理論的な保証とともに私たちの提案の有効性を実証しています。
私たちのコードは https://github.com/rsamf/text-guided-mixup で入手できます。

要約(オリジナル)

In many real-world applications, the frequency distribution of class labels for training data can exhibit a long-tailed distribution, which challenges traditional approaches of training deep neural networks that require heavy amounts of balanced data. Gathering and labeling data to balance out the class label distribution can be both costly and time-consuming. Many existing solutions that enable ensemble learning, re-balancing strategies, or fine-tuning applied to deep neural networks are limited by the inert problem of few class samples across a subset of classes. Recently, vision-language models like CLIP have been observed as effective solutions to zero-shot or few-shot learning by grasping a similarity between vision and language features for image and text pairs. Considering that large pre-trained vision-language models may contain valuable side textual information for minor classes, we propose to leverage text supervision to tackle the challenge of long-tailed learning. Concretely, we propose a novel text-guided mixup technique that takes advantage of the semantic relations between classes recognized by the pre-trained text encoder to help alleviate the long-tailed problem. Our empirical study on benchmark long-tailed tasks demonstrates the effectiveness of our proposal with a theoretical guarantee. Our code is available at https://github.com/rsamf/text-guided-mixup.

arxiv情報

著者 Richard Franklin,Jiawei Yao,Deyang Zhong,Qi Qian,Juhua Hu
発行日 2024-09-05 14:37:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク