LitCab: Lightweight Calibration of Language Models on Outputs of Varied Lengths

要約

確率推定値が出力が正しい実際の可能性と一致する場合、モデルは適切に調整されているとみなされます。
言語モデル (LM) の調整は、LM の一般的な問題である幻覚の検出と軽減、およびより信頼できるモデルの構築において重要な役割を果たすため、非常に重要です。
しかし、一般的なニューラル モデルのキャリブレーション手法は、答えの正しさを識別する柔軟性に欠け、計算コストが高いため、LM にはあまり適していません。
たとえば、温度スケーリングなどの後処理方法では、多くの場合、候補世代を並べ替えることができません。
さらに、トレーニングベースの方法ではモデル全体を微調整する必要がありますが、最新の LM のサイズが増大しているため、これは非現実的です。
この論文では、入力テキスト表現を取得し、LM 出力ロジットを操作する単一の線形レイヤーで構成される軽量のキャリブレーション メカニズムである LitCab を紹介します。
LitCab は、元のモデル パラメーターの 2% 未満を追加するだけでモデル キャリブレーションを改善します。
評価のために、短いフレーズから段落までの応答をカバーする 7 つのテキスト生成タスクからなるベンチマークである CaT を構築します。
Llama2-7B を使用して LitCab をテストしました。平均 ECE スコアが 20% 削減され、すべてのタスクにわたるキャリブレーションが向上しました。
さらに、GPT および LLaMA ファミリの 7 つの人気のあるオープンソース LM を使用して包括的な評価を実行し、次の重要な発見が得られました。 (1) 同じファミリー内の大きなモデルは、世代の短いタスクのタスクではより良いキャリブレーションを示しますが、必ずしもより長い世代のタスクではそうではありません。

(2) GPT ファミリー モデルは、パラメーターがはるかに少ないにもかかわらず、LLaMA、Llama2、および Vicuna モデルと比較して優れたキャリブレーションを示します。
(3) 目的が限定されたサンプル (会話など) を使用して事前トレーニング済みモデル (LLaMA など) を微調整すると、キャリブレーションが悪化する可能性があり、LM をキャリブレーションするためのセットアップを微調整することの重要性が強調されています。

要約(オリジナル)

A model is considered well-calibrated when its probability estimate aligns with the actual likelihood of the output being correct. Calibrating language models (LMs) is crucial, as it plays a vital role in detecting and mitigating hallucinations, a common issue of LMs, as well as building more trustworthy models. Yet, popular neural model calibration techniques are not well-suited for LMs due to their lack of flexibility in discerning answer correctness and their high computational costs. For instance, post-processing methods like temperature scaling are often unable to reorder the candidate generations. Moreover, training-based methods require finetuning the entire model, which is impractical due to the increasing sizes of modern LMs. In this paper, we present LitCab, a lightweight calibration mechanism consisting of a single linear layer taking the input text representation and manipulateing the LM output logits. LitCab improves model calibration by only adding < 2% of the original model parameters. For evaluation, we construct CaT, a benchmark consisting of 7 text generation tasks, covering responses ranging from short phrases to paragraphs. We test LitCab with Llama2-7B, where it improves calibration across all tasks, by reducing the average ECE score by 20%. We further conduct a comprehensive evaluation with 7 popular open-sourced LMs from GPT and LLaMA families, yielding the following key findings: (1) Larger models within the same family exhibit better calibration on tasks with short generation tasks, but not necessarily for longer ones. (2) GPT-family models show superior calibration compared to LLaMA, Llama2 and Vicuna models despite having much fewer parameters. (3) Finetuning pretrained model (e.g., LLaMA) with samples of limited purpose (e.g., conversations) may lead to worse calibration, highlighting the importance of finetuning setups for calibrating LMs.

arxiv情報

著者 Xin Liu,Muhammad Khalifa,Lu Wang
発行日 2023-10-30 00:30:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク