要約
大規模なニューラル言語モデルは、コンテキスト内学習 (ICL) に対して顕著な能力を示し、入力として提供されたデータセットから新しい関数を推測できます。
ICL がいつどのように発生するかについての現在の理解のほとんどは、線形回帰や連想再現などの非常に単純な学習問題について訓練された LM から得られています。
これらのモデルの問題と、大規模なテキスト コーパスで訓練された LM によって示される「実際の」ICL の間には、依然として大きなギャップが存在します。これには、検索や関数近似だけでなく、言語やその他の構造化された出力の自由形式の生成が含まれます。
この論文では、コンテキスト言語学習 (ICLL) と呼ばれる新しいモデル問題群のレンズを通して ICL を研究します。
ICLL では、LM には形式言語からの文字列のセットが与えられ、同じ言語から追加の文字列を生成する必要があります。
私たちは、ランダムな有限オートマトンによって生成された正規言語のコンテキスト内学習に焦点を当てています。
私たちは、次の 3 つの質問に答えることを目的として、通常の ICLL タスクでニューラル シーケンス モデルの多様なセット (いくつかの RNN、トランスフォーマー、および状態空間モデルのバリアントを含む) を評価します。 (1) どのモデル クラスが経験的に ICLL に対応できるか?
(2) 成功したモデルは ICLL を実行するためにどのようなアルゴリズム ソリューションを実装していますか?
(3) パフォーマンスの低いモデルで ICLL を改善できるアーキテクチャ上の変更は何ですか?
まず、ICLL タスクにおいて、Transformer がリカレント表現または畳み込み表現を使用するニューラル シーケンス モデルよりも大幅に優れたパフォーマンスを示すことを示します。
次に、その能力が、入力条件付き次トークン分布を計算する特殊な「n グラム ヘッド」 (誘導ヘッドの高次の変形) に依存しているという証拠を提供します。
最後に、これらのヘッドをニューラル モデルに配線すると、ICLL だけでなく自然言語モデリングのパフォーマンスも向上し、SlimPajama データセット上で 340M パラメータ モデルの複雑さが最大 1.14 ポイント (6.7%) 改善されることを示します。
要約(オリジナル)
Large-scale neural language models exhibit a remarkable capacity for in-context learning (ICL): they can infer novel functions from datasets provided as input. Most of our current understanding of when and how ICL arises comes from LMs trained on extremely simple learning problems like linear regression and associative recall. There remains a significant gap between these model problems and the ‘real’ ICL exhibited by LMs trained on large text corpora, which involves not just retrieval and function approximation but free-form generation of language and other structured outputs. In this paper, we study ICL through the lens of a new family of model problems we term in context language learning (ICLL). In ICLL, LMs are presented with a set of strings from a formal language, and must generate additional strings from the same language. We focus on in-context learning of regular languages generated by random finite automata. We evaluate a diverse set of neural sequence models (including several RNNs, Transformers, and state-space model variants) on regular ICLL tasks, aiming to answer three questions: (1) Which model classes are empirically capable of ICLL? (2) What algorithmic solutions do successful models implement to perform ICLL? (3) What architectural changes can improve ICLL in less performant models? We first show that Transformers significantly outperform neural sequence models with recurrent or convolutional representations on ICLL tasks. Next, we provide evidence that their ability to do so relies on specialized ‘n-gram heads’ (higher-order variants of induction heads) that compute input-conditional next-token distributions. Finally, we show that hard-wiring these heads into neural models improves performance not just on ICLL, but natural language modeling — improving the perplexity of 340M-parameter models by up to 1.14 points (6.7%) on the SlimPajama dataset.
arxiv情報
著者 | Ekin Akyürek,Bailin Wang,Yoon Kim,Jacob Andreas |
発行日 | 2024-01-30 18:59:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google