要約
ロングテール半教師あり学習 (SSL) におけるクラスの不均衡に対処することは、ラベルなしデータとラベル付きデータの周辺分布の違いに起因するいくつかの重大な課題を引き起こします。前者は未知であることが多く、後者とは異なる可能性があるためです。
最初の課題は、トレーニング中に擬似ラベルがラベル付きデータの分布やバランスのとれた分布など、不正確な分布に偏らないようにすることです。
ただし、推論中にラベルなしのバランスの取れた分布を確保したいと考えており、これが 2 番目の課題です。
これらの課題の両方に対処するために、私たちは 3 つの側面からなるソリューションを提案します。動的に推定されたラベルなしの事前分布からバランスの取れた分布に向かって分類器を段階的に調整する柔軟な分布調整、しきい値ベースによって破棄された自信のない疑似ラベルを利用するソフト一貫性正則化です。
メソッド、およびラベル付きパーティションからの入力データを使用してラベルなしセットを拡張するためのスキーマ。
この最後の側面は、ラベル付きデータとラベルなしデータの互いに素なパーティションが、ラベル付きセットでの強力なデータ拡張の利点を妨げるという、一般的に見落とされている事実への対応として登場します。
私たちの全体的なフレームワークには追加のトレーニング サイクルは必要ないため、すべてを一度に調整、抽出、強化します (ADALLO)。
CIFAR10-LT、CIFAR100-LT、STL10-LT などの不均衡な SSL ベンチマーク データセットに対する ADALLO の広範な評価では、さまざまな程度のクラスの不均衡、ラベル付きデータの量、分布の不一致があり、不均衡な SSL のパフォーマンスが大幅に向上していることが実証されています。
大きな分布の不一致、およびラベル付きデータとラベルなしデータが同じ周辺分布に従う場合の最先端の方法との競合性。
私たちのコードは書類が受理され次第公開されます。
要約(オリジナル)
Addressing the class imbalance in long-tailed semi-supervised learning (SSL) poses a few significant challenges stemming from differences between the marginal distributions of unlabeled data and the labeled data, as the former is often unknown and potentially distinct from the latter. The first challenge is to avoid biasing the pseudo-labels towards an incorrect distribution, such as that of the labeled data or a balanced distribution, during training. However, we still wish to ensure a balanced unlabeled distribution during inference, which is the second challenge. To address both of these challenges, we propose a three-faceted solution: a flexible distribution alignment that progressively aligns the classifier from a dynamically estimated unlabeled prior towards a balanced distribution, a soft consistency regularization that exploits underconfident pseudo-labels discarded by threshold-based methods, and a schema for expanding the unlabeled set with input data from the labeled partition. This last facet comes in as a response to the commonly-overlooked fact that disjoint partitions of labeled and unlabeled data prevent the benefits of strong data augmentation on the labeled set. Our overall framework requires no additional training cycles, so it will align, distill, and augment everything all at once (ADALLO). Our extensive evaluations of ADALLO on imbalanced SSL benchmark datasets, including CIFAR10-LT, CIFAR100-LT, and STL10-LT with varying degrees of class imbalance, amount of labeled data, and distribution mismatch, demonstrate significant improvements in the performance of imbalanced SSL under large distribution mismatch, as well as competitiveness with state-of-the-art methods when the labeled and unlabeled data follow the same marginal distribution. Our code will be released upon paper acceptance.
arxiv情報
著者 | Emanuel Sanchez Aimar,Hannah Helgesen,Michael Felsberg,Marco Kuhlmann |
発行日 | 2023-06-07 17:50:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google