Rethinking the Role of Scale for In-Context Learning: An Interpretability-based Case Study at 66 Billion Scale

要約

言語モデルは、コンテキスト内学習パラダイムを介して、さまざまなタスクの規模が大きくなるにつれてパフォーマンスが向上することが示されています。
この論文では、大規模な言語モデルがコンテキスト内でタスクを学習実行する能力が、その基礎となるコンポーネントすべてに均一に分散されていないという仮説を調査します。
14 の下流タスクの多様なセットにわたって 660 億のパラメーター言語モデル (OPT-66B) を使用すると、これが実際に当てはまることがわかります。注目ヘッドの $\sim$70% とフィード フォワード ネットワークの $\sim$20% を削除できる
タスクパフォ​​ーマンスの低下を最小限に抑えます。
アテンションヘッドのセットには、タスク全体のコンテキスト内学習とコンテキスト内の例の数に重要な(または重要ではない)重要な重複があることがわかりました。
また、タスクにとらわれないレンズを通して仮説に取り組み、OPT-66B の少数のアテンションヘッドが、コンテキスト内学習に関連する原始的な帰納操作、つまり接頭辞のマッチングとコピーを実行する能力で高いスコアを獲得していることを発見しました。
これらの誘導ヘッドは、タスク固有の重要なヘッドと重複しており、Olsson らの議論を補強しています。
(arXiv:2209.11895) インコンテキスト学習に関連するより洗練された動作に対する誘導ヘッドの一般性について。
全体として、私たちの研究は、大規模な言語モデルがコンテキスト内学習のトレーニングが不十分である可能性を示すいくつかの洞察を提供し、コンテキスト内学習をより効果的に実行するために言語モデルを事前トレーニングする方法についての疑問を明らかにします。

要約(オリジナル)

Language models have been shown to perform better with an increase in scale on a wide variety of tasks via the in-context learning paradigm. In this paper, we investigate the hypothesis that the ability of a large language model to in-context learn-perform a task is not uniformly spread across all of its underlying components. Using a 66 billion parameter language model (OPT-66B) across a diverse set of 14 downstream tasks, we find this is indeed the case: $\sim$70% of attention heads and $\sim$20% of feed forward networks can be removed with minimal decline in task performance. We find substantial overlap in the set of attention heads (un)important for in-context learning across tasks and number of in-context examples. We also address our hypothesis through a task-agnostic lens, finding that a small set of attention heads in OPT-66B score highly on their ability to perform primitive induction operations associated with in-context learning, namely, prefix matching and copying. These induction heads overlap with task-specific important heads, reinforcing arguments by Olsson et al. (arXiv:2209.11895) regarding induction head generality to more sophisticated behaviors associated with in-context learning. Overall, our study provides several insights that indicate large language models may be under-trained for in-context learning and opens up questions on how to pre-train language models to more effectively perform in-context learning.

arxiv情報

著者 Hritik Bansal,Karthik Gopalakrishnan,Saket Dingliwal,Sravan Bodapati,Katrin Kirchhoff,Dan Roth
発行日 2023-08-16 09:09:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク