要約
自己教師型大規模言語モデルは、コンテキスト内学習を介して機械翻訳 (MT) を実行する能力を実証していますが、プロンプト指示やデモンストレーションの例に関して、モデルがどこでタスクを実行するかについてはほとんどわかっていません。
この研究では、大規模な言語モデルが文脈内学習者から翻訳モデルに移行する領域を特徴付けることを試みます。
\textsc{GPTNeo2.7B}、\textsc{Bloom3B}、\textsc{Llama7b}、\textsc{Llama7b-chat} での一連のレイヤーごとのコンテキスト マスキング実験を通じて、「タスク認識」ポイントの証拠を実証します。
翻訳タスクは入力表現にエンコードされ、コンテキストに注意を払う必要はなくなります。
さらに、レイヤー全体をマスクアウトした場合のパフォーマンスの低下とタスク認識レイヤーとの間の対応関係を観察します。
この冗長性を利用すると、5 つの例でプロンプトを表示する際に 45\% の計算量が節約され、タスク認識はレイヤー 14 / 32 で達成されます。レイヤーごとの微調整の実験では、MT 微調整に最も効果的なレイヤーは次のレイヤーであることが示されています。
タスクの認識に重要です。
要約(オリジナル)
Self-supervised large language models have demonstrated the ability to perform Machine Translation (MT) via in-context learning, but little is known about where the model performs the task with respect to prompt instructions and demonstration examples. In this work, we attempt to characterize the region where large language models transition from in-context learners to translation models. Through a series of layer-wise context-masking experiments on \textsc{GPTNeo2.7B}, \textsc{Bloom3B}, \textsc{Llama7b} and \textsc{Llama7b-chat}, we demonstrate evidence of a ‘task recognition’ point where the translation task is encoded into the input representations and attention to context is no longer necessary. We further observe correspondence between the low performance when masking out entire layers, and the task recognition layers. Taking advantage of this redundancy results in 45\% computational savings when prompting with 5 examples, and task recognition achieved at layer 14 / 32. Our layer-wise fine-tuning experiments indicate that the most effective layers for MT fine-tuning are the layers critical to task recognition.
arxiv情報
著者 | Suzanna Sia,David Mueller,Kevin Duh |
発行日 | 2024-03-07 14:12:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google