FIRST: Teach A Reliable Large Language Model Through Efficient Trustworthy Distillation

要約

大規模言語モデル (LLM) は私たちの日常生活でますます普及しており、LLM が正確で十分に調整されている信頼できるものであることが期待されています (予測の信頼度は、そのグラウンド トゥルースの正しさの可能性と一致している必要があります)。
現在、微調整は、下流タスクの精度を大幅に向上させて、モデルを実際の使用に適合させるための最も一般的な方法となっています。
優れた精度を実現しているにもかかわらず、微調整は「調整による校正ミス」により満足のいく信頼性からはまだ程遠いことがわかりました。
このペーパーでは、微調整されたモデルに誤ったキャリブレーションが存在する理由と仕組み、および蒸留によって問題がどのように軽減されるかを深く掘り下げます。
次に、教師の知識のごく一部を利用して、コスト効率の高い方法で信頼できる言語モデルを取得する、Efficient Trustworthy Distillation (FIRST) というまったく新しい方法をさらに提案します。
具体的には、計算負荷を大幅に軽減できる、蒸留中の「知識の集中」現象を特定します。
次に、「信頼できる最大化」プロセスを適用して、集中した知識のこの小さな部分を生徒に伝える前にその活用を最適化します。
実験結果は、私たちの方法の有効性を実証しており、ドメイン内シナリオとドメイン外シナリオの両方で平均して精度の向上 (+2.3%) と誤ったキャリブレーションの減少 (-10%) が達成され、信頼性が向上していることを示しています。

要約(オリジナル)

Large language models (LLMs) have become increasingly prevalent in our daily lives, leading to an expectation for LLMs to be trustworthy — – both accurate and well-calibrated (the prediction confidence should align with its ground truth correctness likelihood). Nowadays, fine-tuning has become the most popular method for adapting a model to practical usage by significantly increasing accuracy on downstream tasks. Despite the great accuracy it achieves, we found fine-tuning is still far away from satisfactory trustworthiness due to ‘tuning-induced mis-calibration’. In this paper, we delve deeply into why and how mis-calibration exists in fine-tuned models, and how distillation can alleviate the issue. Then we further propose a brand new method named Efficient Trustworthy Distillation (FIRST), which utilizes a small portion of teacher’s knowledge to obtain a reliable language model in a cost-efficient way. Specifically, we identify the ‘concentrated knowledge’ phenomenon during distillation, which can significantly reduce the computational burden. Then we apply a ‘trustworthy maximization’ process to optimize the utilization of this small portion of concentrated knowledge before transferring it to the student. Experimental results demonstrate the effectiveness of our method, where better accuracy (+2.3%) and less mis-calibration (-10%) are achieved on average across both in-domain and out-of-domain scenarios, indicating better trustworthiness.

arxiv情報

著者 KaShun Shum,Minrui Xu,Jianshu Zhang,Zixin Chen,Shizhe Diao,Hanze Dong,Jipeng Zhang,Muhammad Omer Raza
発行日 2024-08-22 07:31:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク