要約
弱いモデルから強いモデルへの汎化(W2SG)は、弱いスーパーバイザーからのスーパービジョンを活用することで、事前に訓練された強いモデルの能力を刺激する有望なパラダイムとして登場した。強力なモデルの性能を向上させるために、既存の手法は、しばしば、追加の弱いモデルや複雑な手順を必要とし、かなりの計算量とメモリのオーバーヘッドをもたらす。様々な機械学習領域における$f$-発散損失の有効性に動機づけられ、我々はW2SGにおける情報理論的損失関数の枠組みとして$f$-発散を導入する。我々の理論的分析により、W2SGにおける様々な$f$-発散損失の基本的な限界と等価性を、標本複雑度の境界と情報理論的洞察により明らかにする。また、KLダイバージェンスのような広く用いられている指標を一般化した$f$-ダイバージェンス損失が、実際の強モデルの汎化性とノイズ耐性を効果的に改善することを実証的に示す。
要約(オリジナル)
Weak-to-strong generalization (W2SG) has emerged as a promising paradigm for stimulating the capabilities of strong pre-trained models by leveraging supervision from weaker supervisors. To improve the performance of the strong model, existing methods often require additional weak models or complex procedures, leading to substantial computational and memory overhead. Motivated by the effectiveness of $f$-divergence loss in various machine learning domains, we introduce $f$-divergence as an information-theoretic loss function framework in W2SG. Our theoretical analysis reveals fundamental limitations and equivalence of different $f$-divergence losses in W2SG, supported by sample complexity bounds and information-theoretic insights. We empirically demonstrate that $f$-divergence loss, which generalizes widely-used metrics like KL divergence, effectively improves generalization and noise tolerance of the strong model in practice.
arxiv情報
著者 | Wei Yao,Gengze Xu,Huayi Tang,Wenkai Yang,Donglin Di,Ziqiao Wang,Yong Liu |
発行日 | 2025-06-03 17:40:08+00:00 |
arxivサイト | arxiv_id(pdf) |