How Does Pseudo-Labeling Affect the Generalization Error of the Semi-Supervised Gibbs Algorithm?

要約

Gibbs アルゴリズムによる擬似ラベルを使用した半教師あり学習 (SSL) で予想される汎化誤差 (gen-error) の正確な特徴付けを提供します。
生成誤差は、出力仮説、擬似ラベル付きデータセット、およびラベル付きデータセット間の対称化された KL 情報の観点から表現されます。
生成エラーに関する分布のない上限と下限も取得できます。
私たちの調査結果は、擬似ラベルを使用した SSL の一般化パフォーマンスが、出力仮説と入力トレーニング データの間の情報だけでなく、{\em ラベル付き} と {\ の間で共有された情報によっても影響を受けるという新たな洞察を提供します。
em 擬似ラベル付き} データ サンプル。
これは、特定のメソッド群から適切な擬似ラベル付けメソッドを選択するためのガイドラインとして機能します。
理解を深めるために、平均推定とロジスティック回帰という 2 つの例をさらに検討します。
特に、ラベル付きデータ $\lambda$ に対するラベルなしデータの数の比率が、両方のシナリオで生成エラーにどのように影響するかを分析します。
$\lambda$ が増加するにつれて、平均推定の生成誤差は減少し、すべてのサンプルがラベル付けされている場合よりも大きな値で飽和します。ギャップは分析で {\em 正確に} 定量化でき、これは
ラベル付きデータサンプルと擬似ラベル付きデータサンプル間の \emph{相互共分散}。
ロジスティック回帰の場合、$\lambda$ が増加するにつれて、超過リスクの生成誤差と分散成分も減少します。

要約(オリジナル)

We provide an exact characterization of the expected generalization error (gen-error) for semi-supervised learning (SSL) with pseudo-labeling via the Gibbs algorithm. The gen-error is expressed in terms of the symmetrized KL information between the output hypothesis, the pseudo-labeled dataset, and the labeled dataset. Distribution-free upper and lower bounds on the gen-error can also be obtained. Our findings offer new insights that the generalization performance of SSL with pseudo-labeling is affected not only by the information between the output hypothesis and input training data but also by the information {\em shared} between the {\em labeled} and {\em pseudo-labeled} data samples. This serves as a guideline to choose an appropriate pseudo-labeling method from a given family of methods. To deepen our understanding, we further explore two examples — mean estimation and logistic regression. In particular, we analyze how the ratio of the number of unlabeled to labeled data $\lambda$ affects the gen-error under both scenarios. As $\lambda$ increases, the gen-error for mean estimation decreases and then saturates at a value larger than when all the samples are labeled, and the gap can be quantified {\em exactly} with our analysis, and is dependent on the \emph{cross-covariance} between the labeled and pseudo-labeled data samples. For logistic regression, the gen-error and the variance component of the excess risk also decrease as $\lambda$ increases.

arxiv情報

著者 Haiyun He,Gholamali Aminian,Yuheng Bu,Miguel Rodrigues,Vincent Y. F. Tan
発行日 2023-06-15 17:22:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT パーマリンク