Thermometer: Towards Universal Calibration for Large Language Models

要約

大規模言語モデル (LLM) におけるキャリブレーションの問題を検討します。
最近の研究では、命令チューニングなどの一般的な介入では、LLM の調整が不十分になることが多いことがわかっています。
従来のアプリケーションではキャリブレーションがよく研究されていますが、LLM のキャリブレーションは独特の困難を伴います。
これらの課題は、LLM の厳しい計算要件だけでなく、LLM をさまざまなタスクに適用できる汎用性からも生じています。
これらの課題に対処するために、私たちは LLM に合わせた校正アプローチである THERMOMETER を提案します。
THERMOMETER は、LLM を校正するために、複数のタスクからのデータが与えられた補助モデルを学習します。
これは計算効率が高く、LLM の精度を維持し、新しいタスクに対してより適切に調整された応答を生成します。
さまざまなベンチマークにわたる広範な経験的評価により、提案された手法の有効性が実証されています。

要約(オリジナル)

We consider the issue of calibration in large language models (LLM). Recent studies have found that common interventions such as instruction tuning often result in poorly calibrated LLMs. Although calibration is well-explored in traditional applications, calibrating LLMs is uniquely challenging. These challenges stem as much from the severe computational requirements of LLMs as from their versatility, which allows them to be applied to diverse tasks. Addressing these challenges, we propose THERMOMETER, a calibration approach tailored to LLMs. THERMOMETER learns an auxiliary model, given data from multiple tasks, for calibrating a LLM. It is computationally efficient, preserves the accuracy of the LLM, and produces better-calibrated responses for new tasks. Extensive empirical evaluations across various benchmarks demonstrate the effectiveness of the proposed method.

arxiv情報

著者 Maohao Shen,Subhro Das,Kristjan Greenewald,Prasanna Sattigeri,Gregory Wornell,Soumya Ghosh
発行日 2024-06-27 16:30:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク