UNCLE: Uncertainty Expressions in Long-Form Generation

要約

大規模な言語モデル(LLM)は、特に長期の世代では幻覚を起こしやすいです。
幻覚を軽減する有望な方向性は、LLMが十分な知識が不足している場合に不確実性を明示的に表現するように教えることです。
ただし、既存の作業には、長期の生成において不確実性を効果的に表現するLLMSの能力の直接的かつ公正な評価がありません。
このギャップに対処するために、最初に叔父を紹介します。叔父は、長い形式と短い形式の両方の質問応答(QA)で不確実性の発現を評価するために設計されたベンチマークです。
叔父は5つのドメインにまたがり、4Kの長型QAインスタンスと20K以上の短編QAペアで構成されています。
データセットは、ペアの質問とゴールドスタンダードの回答を備えた短い形と長型のQAを直接橋渡しする最初のものです。
ベンチマークに加えて、モデルの機能を評価して不確実性を選択的に表現するための一連の新しいメトリックを提案します。
叔父を使用して、現在のモデルが長期にわたる生成で不確実性を適切に伝えることができないことを示します。
さらに、モデルのパフォーマンスを向上させるための迅速なベースとトレーニングベースの方法の両方を調査します。トレーニングベースの方法はより大きな利益をもたらします。
短い形式と長編の不確実性発現の間のアライメントギャップのさらなる分析は、叔父を使用した将来の研究のための指示を約束することを強調しています。

要約(オリジナル)

Large Language Models (LLMs) are prone to hallucination, particularly in long-form generations. A promising direction to mitigate hallucination is to teach LLMs to express uncertainty explicitly when they lack sufficient knowledge. However, existing work lacks direct and fair evaluation of LLMs’ ability to express uncertainty effectively in long-form generation. To address this gap, we first introduce UNCLE, a benchmark designed to evaluate uncertainty expression in both long- and short-form question answering (QA). UNCLE spans five domains and comprises 4k long-form QA instances and over 20k short-form QA pairs. Our dataset is the first to directly bridge short- and long-form QA with paired questions and gold-standard answers. Along with the benchmark, we propose a suite of new metrics to assess the models’ capabilities to selectively express uncertainty. Using UNCLE, we then demonstrate that current models fail to convey uncertainty appropriately in long-form generation. We further explore both prompt-based and training-based methods to improve models’ performance, with the training-based methods yielding greater gains. Further analysis of alignment gaps between short- and long-form uncertainty expression highlights promising directions for future research using UNCLE.

arxiv情報

著者 Ruihan Yang,Caiqi Zhang,Zhisong Zhang,Xinting Huang,Dong Yu,Nigel Collier,Deqing Yang
発行日 2025-05-22 17:16:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク