Mitigating the Problem of Strong Priors in LMs with Context Extrapolation

要約

言語モデル (LM) は、データ処理から命令に従うアシスタントの作成に至るまで、さまざまなアプリケーションで重要なツールとなっています。
しかし、その利点にもかかわらず、LM には「強い事前分布」の問題など、特定の特異な制限があります。つまり、モデルは、以前の命令に関係なく、入力の特定の (通常はローカルな) 部分に応答して典型的な継続を出力することを学習します。
たとえば、プロンプト インジェクション攻撃は、モデルが明示的なディレクティブを無視するように誘導する可能性があります。
場合によっては、より大きなモデルは、同様のより小さなモデルよりもこれらの問題の影響を受けやすいことが示されており、これは「逆スケーリング」現象の一例です。
私たちは、強力な事前確率の問題を軽減するための新しい手法を開発します。つまり、元の命令セットを使用し、強い事前確率問題の影響をさらに受けやすい元のプロンプトの弱体化バージョンを生成し、弱化されたプロンプトから継続を外挿します。

これにより、モデルが仮説上の強化された命令セットをどのように継続するかを推測できます。
私たちの技術は、LM を一連のデータ生成プロセスを組み合わせた混合モデルとして概念化し、混合の望ましい要素を強化します。
私たちのアプローチは推論時に機能し、再トレーニングの必要がなくなります。
GPT-2、GPT-3、Llama 2、Mistral を含む 11 モデルの 4 つのタスクに適用し、41/44 で改善が見られました。
44 の組み合わせすべてで、完了したタスクの割合の増加の中央値は 40% です。

要約(オリジナル)

Language models (LMs) have become important tools in a variety of applications, from data processing to the creation of instruction-following assistants. But despite their advantages, LMs have certain idiosyncratic limitations such as the problem of `strong priors’, where a model learns to output typical continuations in response to certain, usually local, portions of the input regardless of any earlier instructions. For example, prompt injection attacks can induce models to ignore explicit directives. In some cases, larger models have been shown to be more susceptible to these problems than similar smaller models, an example of the phenomenon of `inverse scaling’. We develop a new technique for mitigating the problem of strong priors: we take the original set of instructions, produce a weakened version of the original prompt that is even more susceptible to the strong priors problem, and then extrapolate the continuation away from the weakened prompt. This lets us infer how the model would continue a hypothetical strengthened set of instructions. Our technique conceptualises LMs as mixture models which combine a family of data generation processes, reinforcing the desired elements of the mixture. Our approach works at inference time, removing any need for retraining. We apply it to eleven models including GPT-2, GPT-3, Llama 2, and Mistral on four tasks, and find improvements in 41/44. Across all 44 combinations the median increase in proportion of tasks completed is 40%.

arxiv情報

著者 Raymond Douglas,Andis Draguns,Tomáš Gavenčiak
発行日 2024-01-31 09:28:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク