要約
事前トレーニングされた言語モデルは、明示的にトレーニングされていないタスクに驚くほど熟練している可能性がありますが、これらの機能をどのように実装するかについてはほとんど理解されていません。
この論文では、事前訓練された言語モデルによって獲得されることが多い基本的な数学的能力を調査します。
具体的には、GPT-2 small の(限られた)数学的能力を説明するために、機械的解釈可能性の手法を使用します。
ケーススタディとして、「戦争は 1732 年から 17 年まで続いた」などの文を取り込み、有効な 2 桁の終了年 (32 年以上) を予測する機能を検証します。
まず、このタスクの出力を計算する GPT-2 small の計算グラフの小さなサブセットである回路を特定します。
次に、各回路コンポーネントの役割を説明し、GPT-2 small の最終多層パーセプトロンが開始年よりも終了年の確率を高めることを示します。
最後に、回路をアクティブにする関連タスクを見つけます。
私たちの結果は、GPT-2 small が、多様なコンテキストにわたって作動する複雑だが一般的なメカニズムを使用するよりも優れた計算を行うことを示唆しています。
要約(オリジナル)
Pre-trained language models can be surprisingly adept at tasks they were not explicitly trained on, but how they implement these capabilities is poorly understood. In this paper, we investigate the basic mathematical abilities often acquired by pre-trained language models. Concretely, we use mechanistic interpretability techniques to explain the (limited) mathematical abilities of GPT-2 small. As a case study, we examine its ability to take in sentences such as ‘The war lasted from the year 1732 to the year 17’, and predict valid two-digit end years (years > 32). We first identify a circuit, a small subset of GPT-2 small’s computational graph that computes this task’s output. Then, we explain the role of each circuit component, showing that GPT-2 small’s final multi-layer perceptrons boost the probability of end years greater than the start year. Finally, we find related tasks that activate our circuit. Our results suggest that GPT-2 small computes greater-than using a complex but general mechanism that activates across diverse contexts.
arxiv情報
著者 | Michael Hanna,Ollie Liu,Alexandre Variengien |
発行日 | 2023-05-16 10:07:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google