A Percolation Model of Emergence: Analyzing Transformers Trained on a Formal Language

要約

データ、サイズ、またはコンピューティングの増加は、ニューラル ネットワークによる特定の機能の突然の学習につながる可能性があります。これは、多くの場合「創発」と呼ばれる現象です。
AI のリスク規制フレームワークを可能にするためには、科学的理解を超えて、このような新たな能力の根底にある原因要因を確立することが重要です。
この研究では、他の分野の創発特性の研究からインスピレーションを求め、ニューラル ネットワークの文脈における概念の現象学的定義を提案します。
私たちの定義は、データ生成プロセスの基礎となる特定の構造の獲得が、特定のより狭いタスクのパフォーマンスの急激な向上の原因であることを意味します。
私たちは、文脈依存形式言語に基づいた実験システムを提案することでこの定義を経験的に調査し、この言語の文字列に基づいてタスクを実行するように訓練されたトランスフォーマーが確かに創発的な機能を発揮することを発見しました。
具体的には、言語の基礎となる文法と文脈依存性を誘発する構造がモデルによって学習されると、より狭いタスクのパフォーマンスが突然向上し始めることを示します。
次に、ネットワークの学習ダイナミクスを二部グラフ上のパーコレーションのプロセスと類推し、データ構造を変更するときに実験で観察される出現点のシフトを予測する正式な相転移モデルを確立します。
全体として、私たちの実験的および理論的フレームワークは、ニューラル ネットワークの創発をより適切に定義、特徴づけ、予測するための一歩をもたらします。

要約(オリジナル)

Increase in data, size, or compute can lead to sudden learning of specific capabilities by a neural network — a phenomenon often called ‘emergence’. Beyond scientific understanding, establishing the causal factors underlying such emergent capabilities is crucial to enable risk regulation frameworks for AI. In this work, we seek inspiration from study of emergent properties in other fields and propose a phenomenological definition for the concept in the context of neural networks. Our definition implicates the acquisition of specific structures underlying the data-generating process as a cause of sudden performance growth for specific, narrower tasks. We empirically investigate this definition by proposing an experimental system grounded in a context-sensitive formal language and find that Transformers trained to perform tasks on top of strings from this language indeed exhibit emergent capabilities. Specifically, we show that once the language’s underlying grammar and context-sensitivity inducing structures are learned by the model, performance on narrower tasks suddenly begins to improve. We then analogize our network’s learning dynamics with the process of percolation on a bipartite graph, establishing a formal phase transition model that predicts the shift in the point of emergence observed in experiment when changing the data structure. Overall, our experimental and theoretical frameworks yield a step towards better defining, characterizing, and predicting emergence in neural networks.

arxiv情報

著者 Ekdeep Singh Lubana,Kyogo Kawaguchi,Robert P. Dick,Hidenori Tanaka
発行日 2024-08-22 17:44:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク