On the Training Convergence of Transformers for In-Context Classification

要約

トランスフォーマーは実際にインコンテキスト学習 (ICL) の優れた能力を実証していますが、トランスフォーマーが ICL を実行できるようにする基礎となるメカニズムの理論的理解はまだ初期段階にあります。
この研究は、コンテキスト内分類タスクのためのトランスフォーマーのトレーニング ダイナミクスを理論的に研究することを目的としています。
特定の仮定の下でのガウス混合物のコンテキスト内分類では、勾配降下法を介してトレーニングされた単層変換器が線形率で全体的に最適なモデルに収束することを実証します。
さらに、トレーニングされたトランスフォーマーの ICL 推論誤差に対するトレーニングとテストのプロンプトの長さの影響を定量化します。
トレーニングとテストのプロンプトの長さが十分に長い場合、トレーニングされた変換器の予測はベイズ最適分類器に近づくことを示します。
実験結果は理論的発見を裏付けています。

要約(オリジナル)

While transformers have demonstrated impressive capacities for in-context learning (ICL) in practice, theoretical understanding of the underlying mechanism enabling transformers to perform ICL is still in its infant stage. This work aims to theoretically study the training dynamics of transformers for in-context classification tasks. We demonstrate that, for in-context classification of Gaussian mixtures under certain assumptions, a single-layer transformer trained via gradient descent converges to a globally optimal model at a linear rate. We further quantify the impact of the training and testing prompt lengths on the ICL inference error of the trained transformer. We show that when the lengths of training and testing prompts are sufficiently large, the prediction of the trained transformer approaches the Bayes-optimal classifier. Experimental results corroborate the theoretical findings.

arxiv情報

著者 Wei Shen,Ruida Zhou,Jing Yang,Cong Shen
発行日 2024-10-15 16:57:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, stat.ML パーマリンク