要約
タイトル:Softmax回帰におけるIn-Context学習とウェイトシフトの近さ
要約:
– 大規模言語モデル(LLM)は、自然言語処理における優れた性能で知られており、多くの人間生活や仕事に関連するタスクにおいて高い効果を発揮しています。
– Transformerのアテンションメカニズムは、特定の入力部分にのみ焦点を合わせることができるため、LLMの重要な構成要素の1つです。
– アテンションメカニズムのキーであるSoftmaxユニットは、アテンションスコアを正規化するため、LLMの性能はSoftmaxユニットを含めたアテンションメカニズムの重要な役割に大きく依存します。
– In-Context学習は、最近のLLMの能力の1つであり、ChatGPTなどのLLMを問い合わせる際の重要な概念です。
– この研究では、Transformerのアテンションメカニズムにおけるsoftmax回帰式のIn-Context学習を研究します。
– 我々は、単一の自己注意層によって誘導されるデータ変換の上限を示し、またソフトマックス予測関数の$\ell_2$回帰損失に対する勾配降下による学習とTransformerによる学習が大きな類似性を示すことを示します。
– この結果は、基本的な回帰タスクに対してセルフアテンションのみを使用してTransformerをトレーニングする場合、ウェイトシフトとTransformersによって学習されたモデルが大きな類似性を示すことを意味します。
要約(オリジナル)
Large language models (LLMs) are known for their exceptional performance in natural language processing, making them highly effective in many human life-related or even job-related tasks. The attention mechanism in the Transformer architecture is a critical component of LLMs, as it allows the model to selectively focus on specific input parts. The softmax unit, which is a key part of the attention mechanism, normalizes the attention scores. Hence, the performance of LLMs in various NLP tasks depends significantly on the crucial role played by the attention mechanism with the softmax unit. In-context learning, as one of the celebrated abilities of recent LLMs, is an important concept in querying LLMs such as ChatGPT. Without further parameter updates, Transformers can learn to predict based on few in-context examples. However, the reason why Transformers becomes in-context learners is not well understood. Recently, several works [ASA+22,GTLV22,ONR+22] have studied the in-context learning from a mathematical perspective based on a linear regression formulation $\min_x\| Ax – b \|_2$, which show Transformers’ capability of learning linear functions in context. In this work, we study the in-context learning based on a softmax regression formulation $\min_{x} \| \langle \exp(Ax), {\bf 1}_n \rangle^{-1} \exp(Ax) – b \|_2$ of Transformer’s attention mechanism. We show the upper bounds of the data transformations induced by a single self-attention layer and by gradient-descent on a $\ell_2$ regression loss for softmax prediction function, which imply that when training self-attention-only Transformers for fundamental regression tasks, the models learned by gradient-descent and Transformers show great similarity.
arxiv情報
著者 | Shuai Li,Zhao Song,Yu Xia,Tong Yu,Tianyi Zhou |
発行日 | 2023-04-26 04:33:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI