要約
自然言語生成 (NLG) タスクにおける不確実性定量化 (UQ) は依然として未解決の課題であり、最新の大規模言語モデル (LLM) のクローズドソースの性質によってさらに悪化しています。
この研究では、ヒューリスティックな不確実性概念を厳密な予測セットに変換できる共形予測 (CP) を、オープンエンド NLG タスクのブラックボックス LLM に適用する方法を調査します。
我々は、自己無撞着理論に基づいた新しい不確実性尺度を導入し、次に、正しさに合わせた不確実性条件を CP アルゴリズムに統合することにより、等角不確実性基準を開発します。
経験的評価は、私たちの不確実性測定が以前の最先端の方法よりも優れていることを示しています。
さらに、汎用および医療シナリオにわたる 4 つの自由形式 NLG データセットで 7 つの一般的な LLM を利用して、正確性カバー率の厳密な制御を実現します。
さらに、小さいサイズの校正された予測セットは、実際のオープンエンド NLG アプリケーションに信頼できる保証を提供する際の私たちの方法の効率をさらに強調します。
要約(オリジナル)
Uncertainty quantification (UQ) in natural language generation (NLG) tasks remains an open challenge, exacerbated by the closed-source nature of the latest large language models (LLMs). This study investigates applying conformal prediction (CP), which can transform any heuristic uncertainty notion into rigorous prediction sets, to black-box LLMs in open-ended NLG tasks. We introduce a novel uncertainty measure based on self-consistency theory, and then develop a conformal uncertainty criterion by integrating the uncertainty condition aligned with correctness into the CP algorithm. Empirical evaluations indicate that our uncertainty measure outperforms prior state-of-the-art methods. Furthermore, we achieve strict control over the correctness coverage rate utilizing 7 popular LLMs on 4 free-form NLG datasets, spanning general-purpose and medical scenarios. Additionally, the calibrated prediction sets with small size further highlights the efficiency of our method in providing trustworthy guarantees for practical open-ended NLG applications.
arxiv情報
著者 | Zhiyuan Wang,Jinhao Duan,Lu Cheng,Yue Zhang,Qingni Wang,Xiaoshuang Shi,Kaidi Xu,Hengtao Shen,Xiaofeng Zhu |
発行日 | 2024-11-18 08:33:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google