Out-Of-Domain Unlabeled Data Improves Generalization

要約

我々は、ラベルなしデータを半教師あり分類問題に組み込むための新しいフレームワークを提案します。このフレームワークでは、i) 敵対的にロバストな損失関数、または ii) 非ロバストな損失関数の最小化を含むシナリオが考慮されています。
特に、ラベルのないサンプルがドメイン内分布からわずかに(全体的な変動の意味で)逸脱することを許可します。
私たちのフレームワークの背後にある中心的なアイデアは、分布的にロバストな最適化 (DRO) と自己教師ありトレーニングを組み合わせることです。
その結果、トレーニング段階でも効率的な多項式時間アルゴリズムを活用します。
理論的な観点から、$\mathbb{R}^d$ における 2 つのガウス分布の混合の分類問題にフレームワークを適用します。ここで、真の分布からの $m$ 個の独立したラベル付きサンプルに加えて、
$n$ (通常は $n\gg m$ を使用) ドメイン外およびラベルのないサンプルも提供されます。
ラベル付きデータのみを使用すると、汎化誤差は $\propto\left(d/m\right)^{1/2}$ によって制限されることがわかります。
ただし、等方性および非等方性混合ガウス モデルの両方に対して私たちの方法を使用すると、ERM と比較して汎化誤差が大幅に改善される、解析的に明示的で漸近的ではない一連の新しい境界を導出できます。
私たちの結果は、2 つの重要な洞察を強調しています。1) ドメイン外のサンプルは、たとえラベルが付けられていない場合でも、真のデータ分布が「クラスター仮定」の形式に従っている場合、一般化ギャップを狭めるために利用できます。2)
半教師あり学習パラダイムは、分布の変化がない場合のフレームワークの特殊なケースとみなすことができます。
私たちは、さまざまな合成データセットと現実世界のデータセットに対して実施された実験を通じて、私たちの主張を検証します。

要約(オリジナル)

We propose a novel framework for incorporating unlabeled data into semi-supervised classification problems, where scenarios involving the minimization of either i) adversarially robust or ii) non-robust loss functions have been considered. Notably, we allow the unlabeled samples to deviate slightly (in total variation sense) from the in-domain distribution. The core idea behind our framework is to combine Distributionally Robust Optimization (DRO) with self-supervised training. As a result, we also leverage efficient polynomial-time algorithms for the training stage. From a theoretical standpoint, we apply our framework on the classification problem of a mixture of two Gaussians in $\mathbb{R}^d$, where in addition to the $m$ independent and labeled samples from the true distribution, a set of $n$ (usually with $n\gg m$) out of domain and unlabeled samples are given as well. Using only the labeled data, it is known that the generalization error can be bounded by $\propto\left(d/m\right)^{1/2}$. However, using our method on both isotropic and non-isotropic Gaussian mixture models, one can derive a new set of analytically explicit and non-asymptotic bounds which show substantial improvement on the generalization error compared to ERM. Our results underscore two significant insights: 1) out-of-domain samples, even when unlabeled, can be harnessed to narrow the generalization gap, provided that the true data distribution adheres to a form of the “cluster assumption’, and 2) the semi-supervised learning paradigm can be regarded as a special case of our framework when there are no distributional shifts. We validate our claims through experiments conducted on a variety of synthetic and real-world datasets.

arxiv情報

著者 Amir Hossein Saberi,Amir Najafi,Alireza Heidari,Mohammad Hosein Movasaghinia,Abolfazl Motahari,Babak H. Khalaj
発行日 2024-02-15 18:23:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク