Large Language Models as Computable Approximations to Solomonoff Induction

要約

大規模な言語モデル(LLMS)の急速な進歩は、経験的な成功を説明するために厳格な理論的枠組みを求めています。
LLMの動作を理解する際に大きな進歩がありましたが、既存の理論的フレームワークは、統一された数学レンズを介して緊急現象を説明する際に断片化されたままです。
2つの基本的な結果を証明することにより、LLMアーキテクチャとアルゴリズム情報理論(AIT)の間の最初の正式なつながりを確立します。(1)トレーニングプロセスは、プログラム長の最適化として解釈される損失最小化を通じてソロモノフを計算することを計算します。
AITを活用して、コンテキスト内学習、少数のショット学習、およびスケーリング法の統一された理論的説明を提供します。
さらに、私たちの理論的洞察は、モデルがより低い予測信頼性を示すサンプルに優先順位を付ける、少数のショット例選択の原則的な方法につながります。
多様なテキスト分類ベンチマークに関する実験を通じて、この戦略が、特に高いモデルアーキテクチャに対して、高い自信の例を選択するのと比較して、大幅なパフォーマンスの改善をもたらすことを実証します。
私たちのフレームワークは、理論的基礎と実用的なLLM行動の間のギャップを埋め、将来のモデル開発のための説明力と実用的な洞察の両方を提供します。

要約(オリジナル)

The rapid advancement of large language models (LLMs) calls for a rigorous theoretical framework to explain their empirical success. While significant progress has been made in understanding LLM behaviors, existing theoretical frameworks remain fragmented in explaining emergent phenomena through a unified mathematical lens. We establish the first formal connection between LLM architectures and Algorithmic Information Theory (AIT) by proving two fundamental results: (1) the training process computationally approximates Solomonoff prior through loss minimization interpreted as program length optimization, and (2) next-token prediction implements approximate Solomonoff induction. We leverage AIT to provide a unified theoretical explanation for in-context learning, few-shot learning, and scaling laws. Furthermore, our theoretical insights lead to a principled method for few-shot example selection that prioritizes samples where models exhibit lower predictive confidence. We demonstrate through experiments on diverse text classification benchmarks that this strategy yields significant performance improvements, particularly for smaller model architectures, when compared to selecting high-confidence examples. Our framework bridges the gap between theoretical foundations and practical LLM behaviors, providing both explanatory power and actionable insights for future model development.

arxiv情報

著者 Jun Wan,Lingrui Mei
発行日 2025-05-21 17:35:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク