要約
大規模言語モデル (LLM) は、さまざまな NLP タスクにおいて優れた機能を実証しています。
ただし、LLM は事実と異なるコンテンツを生成する傾向もあります。
不確実性の定量化 (UQ) は、モデルの生成に対する信頼性の理解を高める上で極めて重要であり、それによって非事実出力の軽減に役立ちます。
UQ に関する既存の研究は主に短いテキストの生成を対象としており、通常は短い単語限定の応答が得られます。
ただし、実際のアプリケーションでは、はるかに長い応答が必要になることがよくあります。
私たちの研究では、まず、長いテキストの生成を処理する際の現在の UQ 手法の限界を浮き彫りにしました。
次に、\textsc{Luq} とその 2 つのバリエーション、特に長いテキスト向けに設計された一連の新しいサンプリング ベースの UQ アプローチを紹介します。
私たちの調査結果では、モデルの事実性スコア (Gemini Pro で観察された -0.85 の負の係数) との相関において、 \textsc{Luq} が既存のベースライン手法よりも優れていることが明らかになりました。
LLM 応答の事実性をさらに向上させるために、複数のモデルからの応答をアンサンブルし、不確実性が最も低い応答を選択する方法である \textsc{Luq-Ensemble} を提案します。
アンサンブル手法により、最適なスタンドアロン LLM での応答の事実性が大幅に向上します。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated remarkable capability in a variety of NLP tasks. However, LLMs are also prone to generate nonfactual content. Uncertainty Quantification (UQ) is pivotal in enhancing our understanding of a model’s confidence on its generation, thereby aiding in the mitigation of nonfactual outputs. Existing research on UQ predominantly targets short text generation, typically yielding brief, word-limited responses. However, real-world applications frequently necessitate much longer responses. Our study first highlights the limitations of current UQ methods in handling long text generation. We then introduce \textsc{Luq} and its two variations, a series of novel sampling-based UQ approaches specifically designed for long text. Our findings reveal that \textsc{Luq} outperforms existing baseline methods in correlating with the model’s factuality scores (negative coefficient of -0.85 observed for Gemini Pro). To further improve the factuality of LLM responses, we propose \textsc{Luq-Ensemble}, a method that ensembles responses from multiple models and selects the response with the lowest uncertainty. The ensembling method greatly improves the response factuality upon the best standalone LLM.
arxiv情報
著者 | Caiqi Zhang,Fangyu Liu,Marco Basaldella,Nigel Collier |
発行日 | 2024-07-11 14:22:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google