Say It Another Way: A Framework for User-Grounded Paraphrasing

要約

プロンプトの表現方法の小さな変化は、大規模な言語モデル(LLM)の動作に意味のある違いにつながり、評価の安定性と信頼性に関する懸念を引き起こす可能性があります。
以前の作業では簡単なフォーマットの変更が調査されていますが、実世界の使用で見られる種類の自然なバリエーションをキャプチャすることはめったにありません。
自然な迅速な変動を体系的に生成するための最小限の言語変換の分類に基づいて、制御された言い換えフレームワークを提案します。
BBQデータセットを使用して、人間の注釈と自動化されたチェックの両方でメソッドを検証し、それを使用して、ステレオタイプ評価タスクの言い換えプロンプトにLLMがどのように応答するかを調べます。
私たちの分析は、微妙な迅速な変更でさえモデルの動作に大幅な変化につながる可能性があることを示しています。
これらの結果は、堅牢で言い換えられる評価プロトコルの必要性を強調しています。

要約(オリジナル)

Small changes in how a prompt is worded can lead to meaningful differences in the behavior of large language models (LLMs), raising concerns about the stability and reliability of their evaluations. While prior work has explored simple formatting changes, these rarely capture the kinds of natural variation seen in real-world language use. We propose a controlled paraphrasing framework based on a taxonomy of minimal linguistic transformations to systematically generate natural prompt variations. Using the BBQ dataset, we validate our method with both human annotations and automated checks, then use it to study how LLMs respond to paraphrased prompts in stereotype evaluation tasks. Our analysis shows that even subtle prompt modifications can lead to substantial changes in model behavior. These results highlight the need for robust, paraphrase-aware evaluation protocols.

arxiv情報

著者 Cléa Chataigner,Rebecca Ma,Prakhar Ganesh,Afaf Taïk,Elliot Creager,Golnoosh Farnadi
発行日 2025-05-06 14:17:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク