要約
大規模な言語モデル(LLM)が多様なアプリケーションに不可欠になるため、さまざまな入力条件下での信頼性が重要であることを保証します。
この信頼性に影響を与える重要な問題の1つは、注文感度であり、入力配置のわずかな変動が一貫性のない出力または偏りのある出力につながる可能性があります。
最近の進歩はこの感度を低下させましたが、問題は未解決のままです。
このペーパーでは、言い換え、関連性の判断、複数選択の質問を含む複数のタスクで実験を実施することにより、閉鎖源LLMSの秩序感度の程度を調査します。
私たちの結果は、入力順序がタスク全体のパフォーマンスに大きく影響し、シャッフルされた入力が出力の精度の測定可能な低下につながることを示しています。
少ないショットプロンプトは、混合効果を示し、部分的な緩和を提供しますが、問題を完全に解決できません。
これらの調査結果は、特にハイステークスアプリケーションでの持続的なリスクを強調し、将来の開発におけるより堅牢なLLMSまたは改善された入力手法の必要性を示しています。
要約(オリジナル)
As large language models (LLMs) become integral to diverse applications, ensuring their reliability under varying input conditions is crucial. One key issue affecting this reliability is order sensitivity, wherein slight variations in input arrangement can lead to inconsistent or biased outputs. Although recent advances have reduced this sensitivity, the problem remains unresolved. This paper investigates the extent of order sensitivity in closed-source LLMs by conducting experiments across multiple tasks, including paraphrasing, relevance judgment, and multiple-choice questions. Our results show that input order significantly affects performance across tasks, with shuffled inputs leading to measurable declines in output accuracy. Few-shot prompting demonstrates mixed effectiveness and offers partial mitigation, however, fails to fully resolve the problem. These findings highlight persistent risks, particularly in high-stakes applications, and point to the need for more robust LLMs or improved input-handling techniques in future development.
arxiv情報
著者 | Bryan Guan,Tanya Roosta,Peyman Passban,Mehdi Rezagholizadeh |
発行日 | 2025-02-06 15:14:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google