Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task

要約

言語モデルは驚くべき範囲の能力を示しますが、その明らかな能力の源は不明です。
これらのネットワークは単に表面統計のコレクションを記憶しているだけなのでしょうか、それとも、目にするシーケンスを生成するプロセスの内部表現に依存しているのでしょうか?
私たちは、GPT モデルの変形を、単純なボード ゲーム、オセロの正当な手を予測するタスクに適用することで、この疑問を調査します。
ネットワークはゲームやそのルールについて先験的な知識を持っていませんが、ボード状態の緊急の非線形内部表現の証拠を発見しました。
介入実験により、この表現を使用してネットワークの出力を制御し、人間の言葉で予測を説明するのに役立つ「潜在顕著性マップ」を作成できることが示されました。

要約(オリジナル)

Language models show a surprising range of capabilities, but the source of their apparent competence is unclear. Do these networks just memorize a collection of surface statistics, or do they rely on internal representations of the process that generates the sequences they see? We investigate this question by applying a variant of the GPT model to the task of predicting legal moves in a simple board game, Othello. Although the network has no a priori knowledge of the game or its rules, we uncover evidence of an emergent nonlinear internal representation of the board state. Interventional experiments indicate this representation can be used to control the output of the network and create ‘latent saliency maps’ that can help explain predictions in human terms.

arxiv情報

著者 Kenneth Li,Aspen K. Hopkins,David Bau,Fernanda Viégas,Hanspeter Pfister,Martin Wattenberg
発行日 2024-06-26 14:27:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク