A Causal World Model Underlying Next Token Prediction: Exploring GPT in a Controlled Environment

要約

次のトークンを予測するためだけに訓練された生成的事前訓練変換器(GPT)モデルは、シーケンスが1トークンずつ生成される世界モデルを暗黙的に学習するのだろうか?我々は、GPTにおける注意メカニズムの因果的解釈を導出し、この解釈から生じる因果的世界モデルを提案することで、この疑問に取り組む。さらに、推論時にGPTモデルを入力シーケンスのゼロショット因果構造学習に利用できることを提案し、信頼スコアを提示する。実証評価は、オセロとチェスの戦略ゲームのセットアップとルールを用いて、制御された環境で行われる。勝つことを意図してプレイされた実世界のゲームで事前に訓練されたGPTを、ランダムな合法的手のシーケンスからなる分布外の合成データでテストする。その結果、GPTモデルは、注意メカニズムに因果構造が符号化されている分布外のシーケンスに対して、高い信頼性で次の合法的な手を生成する可能性が高いことがわかった。また、GPTモデルが違法な手を生成する場合には、因果構造を捉えることができない。

要約(オリジナル)

Do generative pre-trained transformer (GPT) models, trained only to predict the next token, implicitly learn a world model from which a sequence is generated one token at a time? We address this question by deriving a causal interpretation of the attention mechanism in GPT, and suggesting a causal world model that arises from this interpretation. Furthermore, we propose that GPT models, at inference time, can be utilized for zero-shot causal structure learning for input sequences and present a confidence score. Empirical evaluation is conducted in a controlled environment using the setup and rules of the Othello and Chess strategy games. A GPT, pre-trained on real-world games played with the intention of winning, is tested on out-of-distribution synthetic data consisting of sequences of random legal moves. We find that the GPT model is likely to generate legal next moves for out-of-distribution sequences for which a causal structure is encoded in the attention mechanism with high confidence. In cases for which the GPT model generates illegal moves it also fails to capture any causal structure.

arxiv情報

著者 Raanan Y. Rohekar,Yaniv Gurwicz,Sungduk Yu,Estelle Aflalo,Vasudev Lal
発行日 2025-05-02 11:32:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク