Linear Latent World Models in Simple Transformers: A Case Study on Othello-GPT

要約

基礎モデルは、意思決定と論理的推論において重要な機能を発揮します。
それにもかかわらず、単なる確率的な模倣ではなく、彼らの世界の真の理解に関する議論が続いています。
この論文は、オセロ用に訓練された単純な変換器を注意深く調査し、オセロ GPT の創発世界モデルの理解を強化するために先行研究を拡張します。
調査により、Othello-GPT は対立する駒の線形表現をカプセル化しており、これが意思決定プロセスを因果的に操縦する要因であることが明らかになりました。
この論文では、線形世界表現と因果的意思決定の間の相互作用、および層の深さとモデルの複雑さへの依存性をさらに解明します。
コードを公開しました。

要約(オリジナル)

Foundation models exhibit significant capabilities in decision-making and logical deductions. Nonetheless, a continuing discourse persists regarding their genuine understanding of the world as opposed to mere stochastic mimicry. This paper meticulously examines a simple transformer trained for Othello, extending prior research to enhance comprehension of the emergent world model of Othello-GPT. The investigation reveals that Othello-GPT encapsulates a linear representation of opposing pieces, a factor that causally steers its decision-making process. This paper further elucidates the interplay between the linear world representation and causal decision-making, and their dependence on layer depth and model complexity. We have made the code public.

arxiv情報

著者 Dean S. Hazineh,Zechen Zhang,Jeffery Chiu
発行日 2023-10-11 15:20:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク