Paraphrase Types Elicit Prompt Engineering Capabilities

要約

最新の言語モデルの成功の多くは、モデルに指示するための適切なプロンプトを見つけることにかかっています。
これまで、プロンプトの言語表現のバリエーションがこれらのモデルにどのような影響を与えるかはほとんどわかっていませんでした。
この研究は、言い換えタイプ、つまり特定の位置でのさまざまな言語変化を通じて、どの言語的特徴がモデルに影響を与えるかを体系的かつ経験的に評価します。
私たちは、120 のタスクと 6 つの言い換えファミリー (すなわち、形態学、構文、語彙集、語彙構文、談話など) にわたる 5 つのモデルの行動変化を測定します。
また、他のプロンプトエンジニアリング要素 (プロンプトの長さ、語彙の多様性、トレーニングデータへの近さなど) も制御します。
私たちの結果は、言語モデルのプロンプトが特定の言い換えタイプに適応された場合に、言語モデルがタスクを改善する可能性を示しています (たとえば、Mixtral 8x7B では中央値 6.7%、LLaMA 3 8B では 5.5%)。
特に、形態学と語彙、つまり使用される語彙の変更は、プロンプトの改善に有望であることが示されました。
これらの発見は、言語表現の変動を処理できるより堅牢な言語モデルの開発に貢献します。

要約(オリジナル)

Much of the success of modern language models depends on finding a suitable prompt to instruct the model. Until now, it has been largely unknown how variations in the linguistic expression of prompts affect these models. This study systematically and empirically evaluates which linguistic features influence models through paraphrase types, i.e., different linguistic changes at particular positions. We measure behavioral changes for five models across 120 tasks and six families of paraphrases (i.e., morphology, syntax, lexicon, lexico-syntax, discourse, and others). We also control for other prompt engineering factors (e.g., prompt length, lexical diversity, and proximity to training data). Our results show a potential for language models to improve tasks when their prompts are adapted in specific paraphrase types (e.g., 6.7% median gain in Mixtral 8x7B; 5.5% in LLaMA 3 8B). In particular, changes in morphology and lexicon, i.e., the vocabulary used, showed promise in improving prompts. These findings contribute to developing more robust language models capable of handling variability in linguistic expression.

arxiv情報

著者 Jan Philip Wahle,Terry Ruas,Yang Xu,Bela Gipp
発行日 2024-06-28 13:06:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク