The Effect of Optimal Self-Distillation in Noisy Gaussian Mixture Model

要約

モデルが独自の予測からそれ自体を改良する手法である自己抵抗(SD)は、機械学習におけるシンプルでありながら強力なアプローチとして注目を集めています。
その広範な使用にもかかわらず、その有効性の根底にあるメカニズムは不明のままです。
この研究では、レプリカ理論を利用して、騒々しいラベルのあるガウス混合データを使用したバイナリ分類タスクにおけるハイパーパラメーターチューニングマルチステージSDの有効性を調査します。
私たちの調査結果は、SDのパフォーマンス改善の主な要因は、中程度のサイズのデータ​​セットで最も顕著な利益が観察されているハードな擬似適応を通して除去されていることを明らかにしています。
また、意味のある信号を抽出するための早期停止や不均衡なデータのバイアス固定など、実用的なヒューリスティックの有効性を実証します。
これらの結果は、理論的保証と実用的な洞察の両方を提供し、騒々しい環境でのSDの理解と適用を促進します。

要約(オリジナル)

Self-distillation (SD), a technique where a model refines itself from its own predictions, has garnered attention as a simple yet powerful approach in machine learning. Despite its widespread use, the mechanisms underlying its effectiveness remain unclear. In this study, we investigate the efficacy of hyperparameter-tuned multi-stage SD in binary classification tasks with noisy labeled Gaussian mixture data, utilizing a replica theory. Our findings reveals that the primary driver of SD’s performance improvement is denoising through hard pseudo-labels, with the most notable gains observed in moderately sized datasets. We also demonstrate the efficacy of practical heuristics, such as early stopping for extracting meaningful signal and bias fixation for imbalanced data. These results provide both theoretical guarantees and practical insights, advancing our understanding and application of SD in noisy settings.

arxiv情報

著者 Kaito Takanami,Takashi Takahashi,Ayaka Sakata
発行日 2025-01-27 17:20:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG, stat.ML パーマリンク