The Order Effect: Investigating Prompt Sensitivity to Input Order in LLMs

要約

大規模な言語モデル(LLM)が多様なアプリケーションに不可欠になるため、さまざまな入力条件下での信頼性が重要であることを保証します。
この信頼性に影響を与える重要な問題の1つは、注文感度であり、入力配置のわずかな変動が一貫性のない出力または偏った出力につながる可能性があります。
最近の進歩はこの感度を低下させましたが、問題は未解決のままです。
このペーパーでは、内部コンポーネントがユーザー(クローズドソースモデルやAPI呼び出しでアクセスしたモデルなど)から隠されているLLMの順序感度の程度を調査します。
私たちは、言い換え、関連性の判断、複数選択の質問など、複数のタスクで実験を実施します。
私たちの結果は、入力順序がタスク全体のパフォーマンスに大きく影響し、シャッフルされた入力が出力の精度の測定可能な低下につながることを示しています。
少数のショットプロンプトは、混合効果を示し、部分的な緩和を提供します。
ただし、問題を完全に解決できません。
これらの調査結果は、特にハイステークスアプリケーションでの持続的なリスクを強調し、将来の開発におけるより堅牢なLLMSまたは改善された入力手法の必要性を示しています。

要約(オリジナル)

As large language models (LLMs) become integral to diverse applications, ensuring their reliability under varying input conditions is crucial. One key issue affecting this reliability is order sensitivity, wherein slight variations in the input arrangement can lead to inconsistent or biased outputs. Although recent advances have reduced this sensitivity, the problem remains unresolved. This paper investigates the extent of order sensitivity in LLMs whose internal components are hidden from users (such as closed-source models or those accessed via API calls). We conduct experiments across multiple tasks, including paraphrasing, relevance judgment, and multiple-choice questions. Our results show that input order significantly affects performance across tasks, with shuffled inputs leading to measurable declines in output accuracy. Few-shot prompting demonstrates mixed effectiveness and offers partial mitigation; however, fails to fully resolve the problem. These findings highlight persistent risks, particularly in high-stakes applications, and point to the need for more robust LLMs or improved input-handling techniques in future development.

arxiv情報

著者 Bryan Guan,Tanya Roosta,Peyman Passban,Mehdi Rezagholizadeh
発行日 2025-05-09 16:58:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク