In-context learning and Occam’s razor

要約

機械学習の中心的な目標は一般化です。
ノーフリーランチ定理では、さらなる仮定なしに一般化の理論的保証は得られないと述べていますが、実際には、トレーニング データを説明する単純なモデルが最もよく一般化することが観察されています。これは、オッカムの剃刀と呼ばれる原理です。
シンプルなモデルが必要であるにもかかわらず、機械学習における最新のアプローチはトレーニング エラーを最小限に抑えるだけで、せいぜい正則化やアーキテクチャ設計を通じて間接的に単純化を促進するだけです。
ここでは、オッカムのカミソリとコンテキスト内学習との関係を示します。これは、トランスフォーマーのような特定のシーケンス モデルが、推論時にシーケンス内の過去の観察から学習する創発的な能力です。
特に、コンテキスト内学習者のトレーニングに使用されるネクストトークン予測損失は、事前符号化と呼ばれるデータ圧縮技術と直接同等であり、この損失を最小限に抑えることは、トレーニング誤差とモデルの複雑さの両方を同時に最小限に抑えることに等しいことを示します。
それはコンテキストから暗黙的に学習されました。
私たちの理論とそれをサポートするために使用した実証実験は、コンテキスト内学習の規範的な説明を提供するだけでなく、現在のコンテキスト内学習方法の欠点を解明し、それらを改善する方法を提案します。
コードは https://github.com/3rdCore/PrequentialCode で公開しています。

要約(オリジナル)

A central goal of machine learning is generalization. While the No Free Lunch Theorem states that we cannot obtain theoretical guarantees for generalization without further assumptions, in practice we observe that simple models which explain the training data generalize best: a principle called Occam’s razor. Despite the need for simple models, most current approaches in machine learning only minimize the training error, and at best indirectly promote simplicity through regularization or architecture design. Here, we draw a connection between Occam’s razor and in-context learning: an emergent ability of certain sequence models like Transformers to learn at inference time from past observations in a sequence. In particular, we show that the next-token prediction loss used to train in-context learners is directly equivalent to a data compression technique called prequential coding, and that minimizing this loss amounts to jointly minimizing both the training error and the complexity of the model that was implicitly learned from context. Our theory and the empirical experiments we use to support it not only provide a normative account of in-context learning, but also elucidate the shortcomings of current in-context learning methods, suggesting ways in which they can be improved. We make our code available at https://github.com/3rdCore/PrequentialCode.

arxiv情報

著者 Eric Elmoznino,Tom Marty,Tejas Kasetty,Leo Gagnon,Sarthak Mittal,Mahan Fathi,Dhanya Sridhar,Guillaume Lajoie
発行日 2024-12-05 15:24:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク