要約
本研究は、大規模言語モデル(LLM)における不確実性をロジットアクセスなしで定量化するという、広く浸透している課題に取り組むことを目的としている。コンフォーマル・プレディクション(CP)は、そのモデルにとらわれない、分布のない特徴で知られ、様々なLLMやデータ分布に対して望ましいアプローチである。しかし、LLMのための既存のCP手法は、一般的にロジットへのアクセスを前提としており、APIのみのLLMでは利用できない。さらに、ロジットは誤較正されることが知られており、CP性能の低下につながる可能性がある。これらの課題に取り組むために、我々は、(1)ロジットアクセスのないAPI-only LLM用に調整され、(2)予測セットのサイズを最小化し、(3)ユーザー定義のカバレッジを統計的に保証する、新しいCP手法を紹介する。本アプローチの核となる考え方は、粗視化(サンプル頻度など)と細視化(意味的類似性など)の両方の不確実性概念を用いて不適合尺度を定式化することである。クローズエンドとオープンエンドの両方の質問応答タスクに対する実験結果は、我々のアプローチがロジットベースのCPベースラインをほとんど上回ることができることを示している。
要約(オリジナル)
This study aims to address the pervasive challenge of quantifying uncertainty in large language models (LLMs) without logit-access. Conformal Prediction (CP), known for its model-agnostic and distribution-free features, is a desired approach for various LLMs and data distributions. However, existing CP methods for LLMs typically assume access to the logits, which are unavailable for some API-only LLMs. In addition, logits are known to be miscalibrated, potentially leading to degraded CP performance. To tackle these challenges, we introduce a novel CP method that (1) is tailored for API-only LLMs without logit-access; (2) minimizes the size of prediction sets; and (3) ensures a statistical guarantee of the user-defined coverage. The core idea of this approach is to formulate nonconformity measures using both coarse-grained (i.e., sample frequency) and fine-grained uncertainty notions (e.g., semantic similarity). Experimental results on both close-ended and open-ended Question Answering tasks show our approach can mostly outperform the logit-based CP baselines.
arxiv情報
著者 | Jiayuan Su,Jing Luo,Hongwei Wang,Lu Cheng |
発行日 | 2024-03-02 14:14:45+00:00 |
arxivサイト | arxiv_id(pdf) |