A non-ergodic framework for understanding emergent capabilities in Large Language Models

要約

大規模な言語モデルには、スケールに応じて予期せぬ形で出現する能力があるが、なぜ、そしてどのように出現するのかを説明する理論的枠組みが必要である。我々は、言語モデルが実際には非エルゴードシステムであることを証明するとともに、能力の創発を説明するために、スチュアート・カウフマンの隣接可能性理論(TAP)に基づく数学的枠組みを提供する。我々のリソース制約型TAP方程式は、アーキテクチャ、トレーニング、コンテキストの制約がどのように相互作用し、意味空間における相転移を通じてモデルの能力を形成するかを示す。我々は、3つの異なる言語モデルを用いた実験を通じて、制約の相互作用と経路依存の探索によって導かれる離散的な遷移を通じて能力が出現することを証明する。このフレームワークは、言語モデルにおける創発を理解するための理論的基礎を提供し、能力の創発を導くことのできるアーキテクチャの開発を導く。

要約(オリジナル)

Large language models have emergent capabilities that come unexpectedly at scale, but we need a theoretical framework to explain why and how they emerge. We prove that language models are actually non-ergodic systems while providing a mathematical framework based on Stuart Kauffman’s theory of the adjacent possible (TAP) to explain capability emergence. Our resource-constrained TAP equation demonstrates how architectural, training, and contextual constraints interact to shape model capabilities through phase transitions in semantic space. We prove through experiments with three different language models that capacities emerge through discrete transitions guided by constraint interactions and path-dependent exploration. This framework provides a theoretical basis for understanding emergence in language models and guides the development of architectures that can guide capability emergence.

arxiv情報

著者 Javier Marin
発行日 2025-01-03 05:11:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク