Prompting a Pretrained Transformer Can Be a Universal Approximator

要約

変圧器モデルのプロンプト、プロンプト チューニング、プレフィックス チューニングが広く採用されているにもかかわらず、これらの微調整方法に関する理論的な理解は限られたままです。
重要な問題は、プロンプトまたはプレフィックス調整によって、事前トレーニングされたモデルの動作を任意に変更できるかどうかです。
形式的には、事前トレーニング済みモデルのプロンプトとプレフィックス調整がシーケンス間の関数を普遍的に近似できるかどうか。
この論文は肯定的に答え、これまで考えられていたよりもはるかに小さな事前学習済みモデルが、接頭辞を付けられた場合に汎用近似器になり得ることを実証します。
実際、アテンション メカニズムは、単一のアテンション ヘッドをプレフィックス調整するだけで任意の連続関数を近似するのに十分な汎用近似に独自に適しています。
さらに、シーケンス間の関数は、シーケンス長で線形な深さをもつトランスフォーマーを接頭辞として付けることによって近似できます。
これらの密度タイプの結果に加えて、関数を望ましい精度に近似するために必要なプレフィックスの長さに関するジャクソンタイプの境界も提供します。

要約(オリジナル)

Despite the widespread adoption of prompting, prompt tuning and prefix-tuning of transformer models, our theoretical understanding of these fine-tuning methods remains limited. A key question is whether one can arbitrarily modify the behavior of pretrained model by prompting or prefix-tuning it. Formally, whether prompting and prefix-tuning a pretrained model can universally approximate sequence-to-sequence functions. This paper answers in the affirmative and demonstrates that much smaller pretrained models than previously thought can be universal approximators when prefixed. In fact, the attention mechanism is uniquely suited for universal approximation with prefix-tuning a single attention head being sufficient to approximate any continuous function. Moreover, any sequence-to-sequence function can be approximated by prefixing a transformer with depth linear in the sequence length. Beyond these density-type results, we also offer Jackson-type bounds on the length of the prefix needed to approximate a function to a desired precision.

arxiv情報

著者 Aleksandar Petrov,Philip H. S. Torr,Adel Bibi
発行日 2024-02-22 18:12:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.FA パーマリンク