Generalization error bounds for iterative learning algorithms with bounded updates

要約

この論文では、情報理論的手法を使用して、非凸損失関数の有界更新による反復学習アルゴリズムの一般化特性を調査します。
私たちの主な貢献は、確率的勾配降下法 (SGD) のみに焦点を当てた以前の研究の範囲を超えて、限定された更新を伴うこれらのアルゴリズムの一般化エラーに限定された新しいものです。
私たちのアプローチには、2 つの主な新しさが導入されています。1) 相互情報量を更新の不確実性として再定式化して、新しい視点を提供します。2) 相互情報量の連鎖規則を使用する代わりに、分散分解手法を使用して反復にわたって情報を分解します。
より単純な代理プロセスが可能になります。
さまざまな設定の下で汎化限界を分析し、モデルの次元がトレーニング データ サンプルの数と同じ割合で増加した場合の限界の改善を示します。
理論と実践の間のギャップを埋めるために、大規模な言語モデルで以前に観察されたスケーリング動作も調べます。
最終的に、私たちの研究は実践的な一般化理論を開発するためのさらなるステップを踏みます。

要約(オリジナル)

This paper explores the generalization characteristics of iterative learning algorithms with bounded updates for non-convex loss functions, employing information-theoretic techniques. Our key contribution is a novel bound for the generalization error of these algorithms with bounded updates, extending beyond the scope of previous works that only focused on Stochastic Gradient Descent (SGD). Our approach introduces two main novelties: 1) we reformulate the mutual information as the uncertainty of updates, providing a new perspective, and 2) instead of using the chaining rule of mutual information, we employ a variance decomposition technique to decompose information across iterations, allowing for a simpler surrogate process. We analyze our generalization bound under various settings and demonstrate improved bounds when the model dimension increases at the same rate as the number of training data samples. To bridge the gap between theory and practice, we also examine the previously observed scaling behavior in large language models. Ultimately, our work takes a further step for developing practical generalization theories.

arxiv情報

著者 Jingwen Fu,Nanning Zheng
発行日 2023-09-13 12:12:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク