What’s the Magic Word? A Control Theory of LLM Prompting

要約

LLM の展開では迅速なエンジニアリングが効果的かつ重要ですが、数学的にはほとんど理解されていません。
ここでは、プロンプト エンジニアリングを LLM の最適制御問題として形式化します。プロンプトは、LLM の出力分布を調整するための制御変数と見なされます。
このフレームワーク内で、私たちは単純な質問をします。トークンのシーケンスが与えられた場合、最終トークンを正確に予測する方向に LLM を導く、先頭に付加できるプロンプトが常に存在するのでしょうか?
このような最適なプロンプトをマジック ワードと呼びます。これは、プロンプトを先頭に追加すると、LLM が正しい答えを出力するためです。
魔法の言葉が存在するなら、私たちはそれを見つけることができるでしょうか?
もしそうなら、それらの特性は何ですか?
私たちはセルフアテンションヘッドの制御性に関する解析分析を提供し、その重み行列の特異値の関数として制御性の限界を証明します。
私たちは制御理論からインスピレーションを得て、LLM ステアビリティを特徴付ける $k-\epsilon$ 制御性と呼ばれる指標を提案します。
Falcon-7b、Llama-7b、Falcon-40b を含む大規模言語モデルのパネルの $k-\epsilon$ 制御可能性を、5000 の WikiText 因果関係言語モデリング タスクで計算します。
注目すべきことに、各モデルについて調査した WikiText インスタンスの 97% 以上に 10 トークン以下のマジック ワードが存在することがわかりました。

要約(オリジナル)

Prompt engineering is effective and important in the deployment of LLMs but is poorly understood mathematically. Here, we formalize prompt engineering as an optimal control problem on LLMs — where the prompt is considered a control variable for modulating the output distribution of the LLM. Within this framework, we ask a simple question: given a sequence of tokens, does there always exist a prompt we can prepend that will steer the LLM toward accurately predicting the final token? We call such an optimal prompt the magic word since prepending the prompt causes the LLM to output the correct answer. If magic words exist, can we find them? If so, what are their properties? We offer analytic analysis on the controllability of the self-attention head where we prove a bound on controllability as a function of the singular values of its weight matrices. We take inspiration from control theory to propose a metric called $k-\epsilon$ controllability to characterize LLM steerability. We compute the $k-\epsilon$ controllability of a panel of large language models, including Falcon-7b, Llama-7b, and Falcon-40b on 5000 WikiText causal language modeling tasks. Remarkably, we find that magic words of 10 tokens or less exist for over 97% of WikiText instances surveyed for each model.

arxiv情報

著者 Aman Bhargava,Cameron Witkowski,Manav Shah,Matt Thomson
発行日 2023-10-10 10:15:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.NE パーマリンク