Making Pre-trained Language Models both Task-solvers and Self-calibrators

要約

事前トレーニングされた言語モデル (PLM) は、さまざまな現実世界のシステムのバックボーンとして機能します。
リスクの高いアプリケーションの場合、予測における合理的な信頼推定値を持つことも同様に重要です。
PLM の標準的な信頼スコアはすでに効果的に利用できていますが、PLM は常に誤った予測に対して過信するようになっており、これは実際には望ましくありません。
これまでの研究では、追加のキャリブレーション タスクを導入することでこの問題を軽減できることが示されています。
基本的な考え方には、初期予測の信頼性を予測する際にモデルをトレーニングするための追加データの取得が含まれます。
ただし、これは、導入されたキャリブレーション タスクに使用できる追加のサンプルが豊富にあることを前提として、この種の方法の実現可能性を示しているだけです。
この作業では、PLM をタスクソルバーと自己キャリブレーターの両方にするためにトレーニング サンプルを効果的に利用する必要があるという実際的なシナリオを検討します。
トレーニング サンプルの制限、データの不均衡、分布の変化など 3 つの課題が提示されています。
まず、パイロット実験を実施して、校正タスクにおけるさまざまな決定要因を定量化します。
実証的な分析結果に基づいて、課題に取り組むための学習アルゴリズム LM-TOAST を提案します。
実験結果は、LM-TOAST がトレーニング データを効果的に利用して、元のタスクのパフォーマンスを維持しながら PLM に妥当な信頼度推定を行わせることができることを示しています。
さらに、LM-TOAST の実用的な有用性を示すために、選択的分類、敵対的防御、モデル カスケードという 3 つの下流アプリケーションを検討します。
コードは \url{https://github.com/Yangyi-Chen/LM-TOAST} で公開されます。

要約(オリジナル)

Pre-trained language models (PLMs) serve as backbones for various real-world systems. For high-stake applications, it’s equally essential to have reasonable confidence estimations in predictions. While the vanilla confidence scores of PLMs can already be effectively utilized, PLMs consistently become overconfident in their wrong predictions, which is not desirable in practice. Previous work shows that introducing an extra calibration task can mitigate this issue. The basic idea involves acquiring additional data to train models in predicting the confidence of their initial predictions. However, it only demonstrates the feasibility of this kind of method, assuming that there are abundant extra available samples for the introduced calibration task. In this work, we consider the practical scenario that we need to effectively utilize training samples to make PLMs both task-solvers and self-calibrators. Three challenges are presented, including limited training samples, data imbalance, and distribution shifts. We first conduct pilot experiments to quantify various decisive factors in the calibration task. Based on the empirical analysis results, we propose a training algorithm LM-TOAST to tackle the challenges. Experimental results show that LM-TOAST can effectively utilize the training data to make PLMs have reasonable confidence estimations while maintaining the original task performance. Further, we consider three downstream applications, namely selective classification, adversarial defense, and model cascading, to show the practical usefulness of LM-TOAST. The code will be made public at \url{https://github.com/Yangyi-Chen/LM-TOAST}.

arxiv情報

著者 Yangyi Chen,Xingyao Wang,Heng Ji
発行日 2023-07-21 02:51:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク