要約
大規模言語モデル (LLM) は優れた機能を実証していますが、依然として不一致の問題に悩まされています (例: LLM は、言い換えや重要でない順序変更などの障害に対して異なる反応を示す可能性があります)。
これらの矛盾に加えて、LLM は難しい問題を解決できる一方で、逆説的に簡単な問題では失敗する可能性があることも観察されています。
この難しいことと簡単なことの矛盾を評価するために、各エントリが厳密な難易度の順序を持つ 2 つの質問で構成される ConsisEval ベンチマークを開発しました。
さらに、この不一致を定量的に測定するために一貫性スコアの概念を導入し、相対的な一貫性スコアによって一貫性の改善の可能性を分析します。
さまざまな既存モデルにわたる包括的な実験に基づいて、次のことがわかりました。(1) GPT-4 は 92.2\% という最高の一貫性スコアを達成していますが、冗長な情報による気晴らしや質問の誤解などにより、特定の質問に対して依然として一貫性がありません。
(2) より強力な機能を備えたモデルは通常、より高い一貫性を示しますが、例外も存在します。
(3) ハードデータにより、微調整とコンテキスト内学習の両方の一貫性が向上します。
私たちのデータとコードは GitHub で公開されます。
要約(オリジナル)
Large language models (LLMs) have demonstrated impressive capabilities, but still suffer from inconsistency issues (e.g. LLMs can react differently to disturbances like rephrasing or inconsequential order change). In addition to these inconsistencies, we also observe that LLMs, while capable of solving hard problems, can paradoxically fail at easier ones. To evaluate this hard-to-easy inconsistency, we develop the ConsisEval benchmark, where each entry comprises a pair of questions with a strict order of difficulty. Furthermore, we introduce the concept of consistency score to quantitatively measure this inconsistency and analyze the potential for improvement in consistency by relative consistency score. Based on comprehensive experiments across a variety of existing models, we find: (1) GPT-4 achieves the highest consistency score of 92.2\% but is still inconsistent to specific questions due to distraction by redundant information, misinterpretation of questions, etc.; (2) models with stronger capabilities typically exhibit higher consistency, but exceptions also exist; (3) hard data enhances consistency for both fine-tuning and in-context learning. Our data and code will be publicly available on GitHub.
arxiv情報
著者 | Zhe Yang,Yichang Zhang,Tianyu Liu,Jian Yang,Junyang Lin,Chang Zhou,Zhifang Sui |
発行日 | 2024-06-18 17:25:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google