Open-Sampling: Exploring Out-of-Distribution data for Re-balancing Long-tailed datasets

要約

トレーニングデータセットが極端なクラスの不均衡に悩まされている場合、通常、ディープニューラルネットワークのパフォーマンスは低下します。
最近の研究では、半教師ありの方法で分布外のデータ(つまり、開集合のサンプル)を使用して直接トレーニングすると、一般化のパフォーマンスが低下することがわかりました。
この作業では、ベイズの観点から少数派のクラスを増強するために、分布外のデータを引き続き活用できることを理論的に示します。
この動機に基づいて、オープンセットのノイズの多いラベルを利用してトレーニングデータセットのクラスの事前バランスを再調整する、オープンサンプリングと呼ばれる新しい方法を提案します。
オープンセットインスタンスごとに、ラベルは、元のクラスの事前分布の分布を補完する事前定義された分布からサンプリングされます。
オープンサンプリングは、クラスの事前分布のバランスを取り直すだけでなく、ニューラルネットワークが分離可能な表現を学習するように促すことを経験的に示しています。
広範な実験は、提案された方法が既存のデータリバランス方法を大幅に上回り、既存の最先端の方法のパフォーマンスを向上させることができることを示しています。

要約(オリジナル)

Deep neural networks usually perform poorly when the training dataset suffers from extreme class imbalance. Recent studies found that directly training with out-of-distribution data (i.e., open-set samples) in a semi-supervised manner would harm the generalization performance. In this work, we theoretically show that out-of-distribution data can still be leveraged to augment the minority classes from a Bayesian perspective. Based on this motivation, we propose a novel method called Open-sampling, which utilizes open-set noisy labels to re-balance the class priors of the training dataset. For each open-set instance, the label is sampled from our pre-defined distribution that is complementary to the distribution of original class priors. We empirically show that Open-sampling not only re-balances the class priors but also encourages the neural network to learn separable representations. Extensive experiments demonstrate that our proposed method significantly outperforms existing data re-balancing methods and can boost the performance of existing state-of-the-art methods.

arxiv情報

著者 Hongxin Wei,Lue Tao,Renchunzi Xie,Lei Feng,Bo An
発行日 2022-06-17 14:29:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク