Self-Consistency of Large Language Models under Ambiguity

要約

コンテキスト全体で一貫した答えを提供しない大規模言語モデル (LLM) は、質問応答や説明など、一貫性が期待されるタスクに使用すると問題が発生します。私たちの研究は、以下の場合における自己一貫性の評価ベンチマークを示しています。
2 つ以上の答えが正解になる可能性がある仕様。
私たちは、あいまいな整数シーケンス完了タスクを使用して、OpenAI モデル スイートで一連の動作実験を実行します。
平均の一貫性は 67\% から 82\% の範囲であり、モデルの一貫性がランダムである場合に予測されるよりもはるかに高く、モデルの能力が向上するにつれて増加することがわかりました。
さらに、話者の変更やシーケンスの長さの変更を促すなど、一連の堅牢性チェックを通じてモデルが自己一貫性を維持する傾向があることを示します。
これらの結果は、自己一貫性が特別な訓練を受けなくても、創発的な能力として生じることを示唆しています。
それにもかかわらず、モデル自体の一貫性を判断する際にモデルが調整されておらず、モデルが過大な信頼と過小な信頼の両方を示していることがわかりました。
また、モデルが非自明な確率を代替回答に割り当てるかどうかをトークン出力分布から判断するためのノンパラメトリック テストも提案します。
このテストを使用すると、自己一貫性が向上したにもかかわらず、モデルは通常、代替の一貫性のない答えを大幅に重視していることがわかります。
この確率質量の分布は、自己一貫性の高いモデルであっても内部で複数の可能な応答を計算しているという証拠を提供します。

要約(オリジナル)

Large language models (LLMs) that do not give consistent answers across contexts are problematic when used for tasks with expectations of consistency, e.g., question-answering, explanations, etc. Our work presents an evaluation benchmark for self-consistency in cases of under-specification where two or more answers can be correct. We conduct a series of behavioral experiments on the OpenAI model suite using an ambiguous integer sequence completion task. We find that average consistency ranges from 67\% to 82\%, far higher than would be predicted if a model’s consistency was random, and increases as model capability improves. Furthermore, we show that models tend to maintain self-consistency across a series of robustness checks, including prompting speaker changes and sequence length changes. These results suggest that self-consistency arises as an emergent capability without specifically training for it. Despite this, we find that models are uncalibrated when judging their own consistency, with models displaying both over- and under-confidence. We also propose a nonparametric test for determining from token output distribution whether a model assigns non-trivial probability to alternative answers. Using this test, we find that despite increases in self-consistency, models usually place significant weight on alternative, inconsistent answers. This distribution of probability mass provides evidence that even highly self-consistent models internally compute multiple possible responses.

arxiv情報

著者 Henning Bartsch,Ole Jorgensen,Domenic Rosati,Jason Hoelscher-Obermaier,Jacob Pfau
発行日 2023-10-20 11:57:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク