Automatic Calibration and Error Correction for Large Language Models via Pareto Optimal Self-Supervision

要約

大規模言語モデル (LLM) は、さまざまなアプリケーションに対してすぐに使用できる優れた機能を実証していますが、特に生物医学などのミッションクリティカルな領域では、依然として精度が主要な成長分野です。
LLM 応答の信頼レベルを調整する効果的な方法は、エラーを自動的に検出し、人間による検証を容易にするために不可欠です。
校正信号の重要なソースは、専門家が規定したプログラムによる監視から得られます。これは多くの場合、低コストで利用できますが、ノイズやカバレッジなどの独自の制限があります。
このペーパーでは、追加の手動作業を行わずに、利用可能なプログラムによる監視を活用して、すべての応答のリスク スコアを生成することで LLM 応答を系統的に調整できる、パレート最適自己監視フレームワークを紹介します。
これは、LLM 出力を他の利用可能な監視ソースと調整するハーモナイザー モデルを学習することで実現されます。これにより、より不確実な LLM 応答に高いリスク スコアが割り当てられ、エラー修正が容易になります。
生物医学領域および一般領域における標準的な関係抽出タスクの実験では、提案されたリスク スコアが LLM の実際のエラー率と高い相関関係にあることから、このアプローチの有望性が実証されました。
最も不確実なテスト インスタンスでは、提案されたリスク スコアに基づく動的なプロンプトにより、既製 LLM の精度が大幅に向上し、最先端 (SOTA) の弱い監視や GPT-4 を超えて GPT-3 の結果が向上します。
困難な評価データセットに関する SOTA 監修の過去の結果。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable capabilities out of box for a wide range of applications, yet accuracy still remains a major growth area, especially in mission-critical domains such as biomedicine. An effective method to calibrate the confidence level on LLM responses is essential to automatically detect errors and facilitate human-in-the-loop verification. An important source of calibration signals stems from expert-stipulated programmatic supervision, which is often available at low cost but has its own limitations such as noise and coverage. In this paper, we introduce a Pareto optimal self-supervision framework that can leverage available programmatic supervision to systematically calibrate LLM responses by producing a risk score for every response, without any additional manual efforts. This is accomplished by learning a harmonizer model to align LLM output with other available supervision sources, which would assign higher risk scores to more uncertain LLM responses and facilitate error correction. Experiments on standard relation extraction tasks in biomedical and general domains demonstrate the promise of this approach, with our proposed risk scores highly correlated with the real error rate of LLMs. For the most uncertain test instances, dynamic prompting based on our proposed risk scores results in significant accuracy improvement for off-the-shelf LLMs, boosting GPT-3 results past state-of-the-art (SOTA) weak supervision and GPT-4 results past SOTA supervised results on challenging evaluation datasets.

arxiv情報

著者 Theodore Zhao,Mu Wei,J. Samuel Preston,Hoifung Poon
発行日 2023-06-28 21:11:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, stat.ML パーマリンク