要約
大規模な言語モデル(LLM)は幻覚を起こしやすく、緊急摂動に敏感であり、しばしば一貫性のないまたは信頼できない生成されたテキストをもたらします。
このような幻覚と脆弱性を軽減するために、さまざまな方法が提案されています。そのうちの1つは、LLM応答の一貫性(応答に対するモデルの自信、または再サンプリング時に同様の応答を生成する可能性)を測定しています。
以前の研究では、一貫性を測定することは、再サンプリングされた応答のプール、または内部状態または応答のロジット内に現れる応答の確率にしばしば依存していました。
しかし、これらのアプローチが、人間がLLM応答の一貫性をどのように認識するかをどの程度よく概算するかはまだ明確ではありません。
ユーザー調査(n = 2,976)を実行しましたが、現在の方法では、通常、LLMの一貫性に対するユーザーの認識を非常によく近似していないことがわかりました。
LLMの一貫性を推定するためのロジットベースのアンサンブル方法を提案し、この方法がLLMの一貫性の人間の評価を推定する上で、最もパフォーマンスのある既存のメトリックのパフォーマンスと一致することを示します。
我々の結果は、人間の評価なしでLLMの一貫性を推定する方法は十分に不完全であり、人間の入力をより広く使用することを提案することを示唆しています。
要約(オリジナル)
Large language models (LLMs) are prone to hallucinations and sensitive to prompt perturbations, often resulting in inconsistent or unreliable generated text. Different methods have been proposed to mitigate such hallucinations and fragility — one of them being measuring the consistency (the model’s confidence in the response, or likelihood of generating a similar response when resampled) of LLM responses. In previous work, measuring consistency often relied on the probability of a response appearing within a pool of resampled responses, or internal states or logits of responses. However, it is not yet clear how well these approaches approximate how humans perceive the consistency of LLM responses. We performed a user study (n=2,976) and found current methods typically do not approximate users’ perceptions of LLM consistency very well. We propose a logit-based ensemble method for estimating LLM consistency, and we show that this method matches the performance of the best-performing existing metric in estimating human ratings of LLM consistency. Our results suggest that methods of estimating LLM consistency without human evaluation are sufficiently imperfect that we suggest evaluation with human input be more broadly used.
arxiv情報
著者 | Xiaoyuan Wu,Weiran Lin,Omer Akgul,Lujo Bauer |
発行日 | 2025-06-02 15:55:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google