LUQ: Long-text Uncertainty Quantification for LLMs

要約

大規模言語モデル (LLM) は、さまざまな NLP タスクにおいて優れた機能を実証しています。
これらのモデルは、その有効性にもかかわらず、事実と異なるコンテンツを生成する傾向があります。
不確実性の定量化 (UQ) は、生成されたコンテンツに対するモデルの信頼性の理解を高める上で極めて重要であり、それによって非事実出力の軽減に役立ちます。
UQ に関する既存の研究は主に短いテキストの生成を対象としており、通常は短い単語限定の応答が得られます。
ただし、実際のアプリケーションでは、はるかに長い応答が必要になることがよくあります。
私たちの研究では、まず、長いテキストの生成を処理する際の現在の UQ 手法の限界を浮き彫りにしました。
次に、長いテキスト向けに特別に設計された新しいサンプリングベースの UQ アプローチである \textsc{Luq} を紹介します。
私たちの調査結果では、モデルの事実性スコア (Gemini Pro で観察された -0.85 の負の係数) との相関において、 \textsc{Luq} が既存のベースライン手法よりも優れていることが明らかになりました。
UQ のツールとして \textsc{Luq} を使用して、いくつかの人気のある LLM の応答信頼度スペクトルの動作パターンと、それが応答の事実とどのように相互作用するかを調査します。
私たちは、LLM がまれな事実について長いテキストを生成することに自信がなく、事実に基づいて強力なモデル (つまり GPT-4) が確信のない質問を拒否する傾向があることを確認しました。
LLM 応答の事実精度をさらに向上させるために、複数のモデルからの応答をアンサンブルし、最も不確実性が低い応答を選択する \textsc{Luq-Ensemble} と呼ばれる方法を提案します。
アンサンブル法により、最適なスタンドアロン LLM での応答の事実性が大幅に向上します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable capability in a variety of NLP tasks. Despite their effectiveness, these models are prone to generate nonfactual content. Uncertainty Quantification (UQ) is pivotal in enhancing our understanding of a model’s confidence in its generated content, thereby aiding in the mitigation of nonfactual outputs. Existing research on UQ predominantly targets short text generation, typically yielding brief, word-limited responses. However, real-world applications frequently necessitate much longer responses. Our study first highlights the limitations of current UQ methods in handling long text generation. We then introduce \textsc{Luq}, a novel sampling-based UQ approach specifically designed for long text. Our findings reveal that \textsc{Luq} outperforms existing baseline methods in correlating with the model’s factuality scores (negative coefficient of -0.85 observed for Gemini Pro). With \textsc{Luq} as the tool for UQ, we investigate behavior patterns of several popular LLMs’ response confidence spectrum and how that interplays with the response’ factuality. We identify that LLMs lack confidence in generating long text for rare facts and a factually strong model (i.e. GPT-4) tends to reject questions it is not sure about. To further improve the factual accuracy of LLM responses, we propose a method called \textsc{Luq-Ensemble} that ensembles responses from multiple models and selects the response with the least uncertainty. The ensembling method greatly improves the response factuality upon the best standalone LLM.

arxiv情報

著者 Caiqi Zhang,Fangyu Liu,Marco Basaldella,Nigel Collier
発行日 2024-03-29 16:49:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク