Quantifying Language Models’ Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting

要約

大規模言語モデル (LLM) は言語テクノロジの基本コンポーネントとして採用されているため、そのパフォーマンスを正確に特徴付けることが重要です。
プロンプト設計での選択はモデルの動作に大きな影響を与える可能性があるため、この設計プロセスは、最新の事前トレーニング済み生成言語モデルを効果的に使用するために重要です。
この研究では、意味を保持するデザインの選択の典型的なクラスであるプロンプト書式設定に対する LLM の感度に焦点を当てます。
広く使用されているいくつかのオープンソース LLM は、数ショット設定でのプロンプト形式の微妙な変更に非常に敏感であり、LLaMA-2-13B を使用して評価した場合、最大 76 精度ポイントのパフォーマンス差があることがわかりました。
モデルのサイズ、少数ショットのサンプル数を増やしたり、命令チューニングを実行したりしても、感度は維持されます。
私たちの分析では、プロンプトベースの方法で LLM を評価する作業では、単一の形式でパフォーマンスを報告するという現在標準的な方法ではなく、妥当なプロンプト形式でさまざまなパフォーマンスを報告する方が有益であることが示唆されています。
また、フォーマットのパフォーマンスはモデル間の相関関係が弱いことも示しており、これにより、モデルを任意に選択された固定プロンプトフォーマットと比較する方法論的妥当性が疑問視されます。
体系的な分析を促進するために、私たちは FormatSpread を提案します。これは、特定のタスクに対するもっともらしいプロンプト形式のサンプル セットを迅速に評価し、モデルの重みにアクセスせずに予想されるパフォーマンスの間隔を報告するアルゴリズムです。
さらに、特定の原子の摂動の影響や特定の形式の内部表現の調査など、この感度の性質を特徴付ける一連の解析を提示します。

要約(オリジナル)

As large language models (LLMs) are adopted as a fundamental component of language technologies, it is crucial to accurately characterize their performance. Because choices in prompt design can strongly influence model behavior, this design process is critical in effectively using any modern pre-trained generative language model. In this work, we focus on LLM sensitivity to a quintessential class of meaning-preserving design choices: prompt formatting. We find that several widely used open-source LLMs are extremely sensitive to subtle changes in prompt formatting in few-shot settings, with performance differences of up to 76 accuracy points when evaluated using LLaMA-2-13B. Sensitivity remains even when increasing model size, the number of few-shot examples, or performing instruction tuning. Our analysis suggests that work evaluating LLMs with prompting-based methods would benefit from reporting a range of performance across plausible prompt formats, instead of the currently-standard practice of reporting performance on a single format. We also show that format performance only weakly correlates between models, which puts into question the methodological validity of comparing models with an arbitrarily chosen, fixed prompt format. To facilitate systematic analysis we propose FormatSpread, an algorithm that rapidly evaluates a sampled set of plausible prompt formats for a given task, and reports the interval of expected performance without accessing model weights. Furthermore, we present a suite of analyses that characterize the nature of this sensitivity, including exploring the influence of particular atomic perturbations and the internal representation of particular formats.

arxiv情報

著者 Melanie Sclar,Yejin Choi,Yulia Tsvetkov,Alane Suhr
発行日 2023-10-17 15:03:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク