Fundamental Limits of Prompt Tuning Transformers: Universality, Capacity and Efficiency

要約

変圧器ベースの基礎モデルの即時調整の統計的および計算上の限界を調査します。
私たちの主な貢献は、\textit{single} セルフアテンション層のみを備えた \textit{single-head} トランスフォーマーの迅速な調整です。(i) ユニバーサルであり、(ii)
強力な指数関数的時間仮説 (SETH)。
統計的に、このような最も単純な変換器での迅速な調整が、シーケンス間のリプシッツ関数の汎用近似器であることを証明します。
さらに、1 層、1 ヘッドのトランスフォーマーで任意のデータセットを記憶するためのプロンプト チューニングのために、必要なソフト プロンプト トークンに指数関数的-in-$dL$ および -in-$(1/\epsilon)$ 下限を提供します。

計算的に、\textit{ソフトプロンプト誘導} キーとクエリのノルムによって決定されるプロンプト チューニングの効率における相転移を特定し、上限基準を提供します。
この基準を超えると、SETH ではプロンプト調整のための二次 (効率的な) アルゴリズムは存在しません。
この基準内で、ほぼ線形の時間プロンプト調整推論アルゴリズムの存在を証明することで理論を紹介します。
これらの基本的な制限は、実践者が表現力豊かで効率的なプロンプト チューニング方法を設計するために必要な重要な条件を提供します。

要約(オリジナル)

We investigate the statistical and computational limits of prompt tuning for transformer-based foundation models. Our key contributions are prompt tuning on \textit{single-head} transformers with only a \textit{single} self-attention layer: (i) is universal, and (ii) supports efficient (even almost-linear time) algorithms under the Strong Exponential Time Hypothesis (SETH). Statistically, we prove that prompt tuning on such simplest possible transformers are universal approximators for sequence-to-sequence Lipschitz functions. In addition, we provide an exponential-in-$dL$ and -in-$(1/\epsilon)$ lower bound on the required soft-prompt tokens for prompt tuning to memorize any dataset with 1-layer, 1-head transformers. Computationally, we identify a phase transition in the efficiency of prompt tuning, determined by the norm of the \textit{soft-prompt-induced} keys and queries, and provide an upper bound criterion. Beyond this criterion, no sub-quadratic (efficient) algorithm for prompt tuning exists under SETH. Within this criterion, we showcase our theory by proving the existence of almost-linear time prompt tuning inference algorithms. These fundamental limits provide important necessary conditions for designing expressive and efficient prompt tuning methods for practitioners.

arxiv情報

著者 Jerry Yao-Chieh Hu,Wei-Po Wang,Ammar Gilani,Chenyang Li,Zhao Song,Han Liu
発行日 2024-11-25 16:12:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク