要約
数十億のパラメータで構成され、広範な Web スケールのコーパスで事前トレーニングされた大規模な言語モデルは、特にトレーニングを受けていなくても特定の機能を獲得できると主張されています。
「創発的能力」と呼ばれるこれらの能力は、言語モデルの可能性とリスクに関する議論の推進力となってきました。
創発的能力を評価する際の重要な課題は、創発的能力が、いくつかの例に基づいてタスクを完了するモデルの能力であるインコンテキスト学習など、代替プロンプト手法を通じて生じるモデルの能力によって混乱されることです。
私たちは、潜在的な交絡因子を考慮に入れながら、創発的能力を説明する新しい理論を提示し、1000 を超える実験を通じてこの理論を厳密に実証します。
私たちの調査結果は、創発的能力とされるものは実際には創発的ではなく、文脈内学習、モデル記憶、言語知識の組み合わせから生じることを示唆しています。
私たちの研究は、言語モデルのパフォーマンスを説明するための基礎的なステップであり、言語モデルを効率的に使用するためのテンプレートを提供し、言語モデルの能力が、ある場合には優れているが、ある場合には失敗するというパラドックスを明確にしています。
したがって、それらの能力を過大評価すべきではないことを示しています。
要約(オリジナル)
Large language models, comprising billions of parameters and pre-trained on extensive web-scale corpora, have been claimed to acquire certain capabilities without having been specifically trained on them. These capabilities, referred to as ‘emergent abilities,’ have been a driving force in discussions regarding the potentials and risks of language models. A key challenge in evaluating emergent abilities is that they are confounded by model competencies that arise through alternative prompting techniques, including in-context learning, which is the ability of models to complete a task based on a few examples. We present a novel theory that explains emergent abilities, taking into account their potential confounding factors, and rigorously substantiate this theory through over 1000 experiments. Our findings suggest that purported emergent abilities are not truly emergent, but result from a combination of in-context learning, model memory, and linguistic knowledge. Our work is a foundational step in explaining language model performance, providing a template for their efficient use and clarifying the paradox of their ability to excel in some instances while faltering in others. Thus, we demonstrate that their capabilities should not be overestimated.
arxiv情報
著者 | Sheng Lu,Irina Bigoulaeva,Rachneet Sachdeva,Harish Tayyar Madabushi,Iryna Gurevych |
発行日 | 2024-07-15 12:21:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google