要約
大規模言語モデル (LLM) は複雑な複数ステップの問題を解決できますが、これらの計算が内部でどのように実装されるかについてはほとんど知られていません。
これを動機として、私たちは LLM が「イマジンの出演者の配偶者は」などのマルチホップ クエリにどのように答えるかを研究します。
これらのクエリには 2 つの情報抽出ステップが必要です。1 つは最初のホップ (「イマジンの出演者」) をブリッジ エンティティ (ジョン レノン) に解決するための潜在的なステップ、もう 1 つは 2 番目のホップ (「ジョン レノンの配偶者」) をブリッジ エンティティ (ジョン レノン) に解決するためのステップです。
ターゲットエンティティ(オノヨーコ)。
潜在ステップが内部でどのように計算されるかを理解することは、計算全体を理解するための鍵となります。
トランスベースの LLM の内部計算を注意深く分析することにより、ブリッジ エンティティがモデルの初期層で解決されることがわかりました。
そして、この解決後にのみ、2 ホップ クエリは後の層で解決されます。
2 番目のホップは後の層で開始されるため、これらの層が答えを正しく予測するために必要な知識をエンコードしなくなる場合があります。
これを動機として、我々は、後の層からの隠れた表現を前の層にパッチバックする新しい「バックパッチ」分析方法を提案します。
以前は不正確だったケースの最大 57% に、正しい答えを生成するバックパッチが存在することがわかり、後続の層には実際に必要な機能が欠けている場合があることがわかりました。
全体として、私たちの方法と発見は、トランスフォーマーベースの LLM における潜在推論を理解して改善するさらなる機会を開きます。
要約(オリジナル)
Large language models (LLMs) can solve complex multi-step problems, but little is known about how these computations are implemented internally. Motivated by this, we study how LLMs answer multi-hop queries such as ‘The spouse of the performer of Imagine is’. These queries require two information extraction steps: a latent one for resolving the first hop (‘the performer of Imagine’) into the bridge entity (John Lennon), and one for resolving the second hop (‘the spouse of John Lennon’) into the target entity (Yoko Ono). Understanding how the latent step is computed internally is key to understanding the overall computation. By carefully analyzing the internal computations of transformer-based LLMs, we discover that the bridge entity is resolved in the early layers of the model. Then, only after this resolution, the two-hop query is solved in the later layers. Because the second hop commences in later layers, there could be cases where these layers no longer encode the necessary knowledge for correctly predicting the answer. Motivated by this, we propose a novel ‘back-patching’ analysis method whereby a hidden representation from a later layer is patched back to an earlier layer. We find that in up to 57% of previously incorrect cases there exists a back-patch that results in the correct generation of the answer, showing that the later layers indeed sometimes lack the needed functionality. Overall our methods and findings open further opportunities for understanding and improving latent reasoning in transformer-based LLMs.
arxiv情報
著者 | Eden Biran,Daniela Gottesman,Sohee Yang,Mor Geva,Amir Globerson |
発行日 | 2024-06-18 16:44:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google