Breaking through the learning plateaus of in-context learning in Transformer

要約

コンテキスト内の学習、つまりコンテキストの例からの学習は、Transformer の優れた機能です。
このコンテキスト内学習スキルを身に付けるためにトランスフォーマーをトレーニングすることは、学習プラトーが発生するため、計算負荷が高くなります。学習プラトーとは、モデルのコンテキスト内学習能力が最小限またはまったく強化されないトレーニング プロセス内の期間です。
学習プラトーの背後にあるメカニズムを研究するために、モデルの重みによってもっぱら影響を受けるモデルの内部表現内のコンポーネントを概念的に分離します。
これを「重みコンポーネント」と呼び、残りは「コンテキストコンポーネント」として識別されます。
合成タスクに関して綿密かつ制御された実験を実施することにより、学習プラトーの持続が重みコンポーネントの機能の低下と相関していることがわかりました。
重みコンポーネントのパフォーマンスの低下が学習の停滞を引き起こす基本的な動作であることを認識し、トランスフォーマーの学習を促進する 3 つの戦略を開発しました。
これらの戦略の有効性は、自然言語処理タスクでさらに確認されます。
結論として、私たちの研究は、AI システム内で環境に優しい方法で強力なコンテキスト内学習能力を育成する実現可能性を示しています。

要約(オリジナル)

In-context learning, i.e., learning from context examples, is an impressive ability of Transformer. Training Transformers to possess this in-context learning skill is computationally intensive due to the occurrence of learning plateaus, which are periods within the training process where there is minimal or no enhancement in the model’s in-context learning capability. To study the mechanism behind the learning plateaus, we conceptually seperate a component within the model’s internal representation that is exclusively affected by the model’s weights. We call this the ‘weights component’, and the remainder is identified as the ‘context component’. By conducting meticulous and controlled experiments on synthetic tasks, we note that the persistence of learning plateaus correlates with compromised functionality of the weights component. Recognizing the impaired performance of the weights component as a fundamental behavior drives learning plateaus, we have developed three strategies to expedite the learning of Transformers. The effectiveness of these strategies is further confirmed in natural language processing tasks. In conclusion, our research demonstrates the feasibility of cultivating a powerful in-context learning ability within AI systems in an eco-friendly manner.

arxiv情報

著者 Jingwen Fu,Tao Yang,Yuwang Wang,Yan Lu,Nanning Zheng
発行日 2024-01-29 07:04:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク