要約
言語モデルは驚くべき範囲の機能を示しますが、その明らかな能力の源は不明です。
これらのネットワークは、表面統計のコレクションを記憶しているだけですか?それとも、それらが見るシーケンスを生成するプロセスの内部表現に依存していますか?
この問題を調査するには、GPT モデルの変形を、単純なボード ゲームであるオセロの合法的な動きを予測するタスクに適用します。
ネットワークにはゲームやそのルールに関するアプリオリな知識はありませんが、ボードの状態の緊急の非線形内部表現の証拠を明らかにします。
介入実験は、この表現を使用してネットワークの出力を制御し、予測を人間の言葉で説明するのに役立つ「潜在的顕著性マップ」を作成できることを示しています。
要約(オリジナル)
Language models show a surprising range of capabilities, but the source of their apparent competence is unclear. Do these networks just memorize a collection of surface statistics, or do they rely on internal representations of the process that generates the sequences they see? We investigate this question by applying a variant of the GPT model to the task of predicting legal moves in a simple board game, Othello. Although the network has no a priori knowledge of the game or its rules, we uncover evidence of an emergent nonlinear internal representation of the board state. Interventional experiments indicate this representation can be used to control the output of the network and create ‘latent saliency maps’ that can help explain predictions in human terms.
arxiv情報
著者 | Kenneth Li,Aspen K. Hopkins,David Bau,Fernanda Viégas,Hanspeter Pfister,Martin Wattenberg |
発行日 | 2023-02-27 17:09:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google