要約
ディープ ニューラル ネットワークのトレーニングに使用されるデータセット (ImageNet、MSCOCO など) は、多くの場合、すべてのカテゴリの学習を容易にするために、カテゴリ (クラス) 全体で手動でバランスが取られます。
このキュレーション プロセスは多くの場合コストがかかり、クラス間で頻度のバランスを取るために貴重な注釈付きデータを破棄する必要があります。
これは、世界中のデータの分布 (インターネットなど) が、よく厳選されたデータセットとは大きく異なり、一般的なカテゴリのサンプルが過剰に存在することが多いためです。
適切に厳選されたデータセット用に設計されたアルゴリズムは、ロングテールの不均衡や分布のシフトがある不完全なデータセットから学習するために使用すると、次善のパフォーマンスを発揮します。
ディープモデルが広く使用されるためには、現実世界のデータ分布から学習できる堅牢なアルゴリズムを開発することで、コストのかかるキュレーションプロセスを回避する必要があります。
この目標に向けて、私たちは現実世界に存在する限られた不完全なデータから学習できるディープ ニューラル ネットワーク用の実用的なアルゴリズムを開発します。
これらの研究は 4 つのセグメントに分かれており、それぞれが限られたデータまたは不完全なデータから学習するシナリオをカバーしています。
作業の最初の部分は、ロングテール データの生成モデルの学習に焦点を当てており、テール (少数派) クラスのモード崩壊を緩和し、ヘッド (多数派) クラスとして多様な美的イメージの生成を可能にします。
2 番目の部分では、帰納的正則化スキームを通じて末尾クラスの効果的な一般化を可能にし、画像の明示的な生成を強制することなく末尾クラスを先頭クラスとして一般化できるようにします。
3 番目のパートでは、限定されたアノテーション (半教師あり) を使用したロングテール データからの学習の平均精度と比較した関連メトリクスの最適化アルゴリズムを開発します。続いて 4 番目のパートでは、モデルの効果的なドメイン適応に焦点を当てます。
ラベル付きサンプルがゼロからごくわずかしかないさまざまなドメイン。
要約(オリジナル)
The datasets used for Deep Neural Network training (e.g., ImageNet, MSCOCO, etc.) are often manually balanced across categories (classes) to facilitate learning of all the categories. This curation process is often expensive and requires throwing away precious annotated data to balance the frequency across classes. This is because the distribution of data in the world (e.g., internet, etc.) significantly differs from the well-curated datasets and is often over-populated with samples from common categories. The algorithms designed for well-curated datasets perform suboptimally when used to learn from imperfect datasets with long-tailed imbalances and distribution shifts. For deep models to be widely used, getting away with the costly curation process by developing robust algorithms that can learn from real-world data distribution is necessary. Toward this goal, we develop practical algorithms for Deep Neural Networks that can learn from limited and imperfect data present in the real world. These works are divided into four segments, each covering a scenario of learning from limited or imperfect data. The first part of the works focuses on Learning Generative Models for Long-Tail Data, where we mitigate the mode-collapse for tail (minority) classes and enable diverse aesthetic image generations as head (majority) classes. In the second part, we enable effective generalization on tail classes through Inductive Regularization schemes, which allow tail classes to generalize as the head classes without enforcing explicit generation of images. In the third part, we develop algorithms for Optimizing Relevant Metrics compared to the average accuracy for learning from long-tailed data with limited annotation (semi-supervised), followed by the fourth part, which focuses on the effective domain adaptation of the model to various domains with zero to very few labeled samples.
arxiv情報
著者 | Harsh Rangwani |
発行日 | 2024-11-11 18:48:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google