A Formalism and Approach for Improving Robustness of Large Language Models Using Risk-Adjusted Confidence Scores

要約

ChatGPT などの大規模言語モデル (LLM) は、自然言語処理 (NLP) において目覚ましいマイルストーンを達成しました。
素晴らしいパフォーマンスにもかかわらず、これらのモデルは重大なリスクを引き起こすことが知られています。
これらのモデルは現実世界のアプリケーションに導入されるため、自然言語推論 (NLI) などのタスクにおいてこれらのモデルによってもたらされるさまざまなリスクを体系的に理解することが非常に必要です。
このペーパーでは、意思決定リスクと複合リスクという 2 つの異なるタイプのリスクを定義し、定式化します。
また、ドメイン内とドメイン外の両方の設定でこれらのリスクについて LLM を評価するための、リスク中心の評価フレームワークと 4 つの新しい指標も提案します。
最後に、LLM が NLI アーキテクチャ全体でこれらのリスクを最小限に抑えるのに役立つ、DwD と呼ばれるリスク調整された調整方法を提案します。
4 つの NLI ベンチマーク、3 つのベースライン、および ChatGPT を含む 2 つの LLM を使用した詳細な実験では、評価フレームワークの実際的な有用性と、意思決定および複合リスクの軽減における DwD の有効性の両方が示されています。
たとえば、DwD を使用する場合、基礎となる LLM は、低リスクの推論タスク (ただし、LLM はリスク調整なしで誤って高リスクとみなします) の追加 20.1% に対処し、さらに 19.8% の高リスクタスクをスキップできます。
それは不正確に答えられたでしょう。

要約(オリジナル)

Large Language Models (LLMs), such as ChatGPT, have achieved impressive milestones in natural language processing (NLP). Despite their impressive performance, the models are known to pose important risks. As these models are deployed in real-world applications, a systematic understanding of different risks posed by these models on tasks such as natural language inference (NLI), is much needed. In this paper, we define and formalize two distinct types of risk: decision risk and composite risk. We also propose a risk-centric evaluation framework, and four novel metrics, for assessing LLMs on these risks in both in-domain and out-of-domain settings. Finally, we propose a risk-adjusted calibration method called DwD for helping LLMs minimize these risks in an overall NLI architecture. Detailed experiments, using four NLI benchmarks, three baselines and two LLMs, including ChatGPT, show both the practical utility of the evaluation framework, and the efficacy of DwD in reducing decision and composite risk. For instance, when using DwD, an underlying LLM is able to address an extra 20.1% of low-risk inference tasks (but which the LLM erroneously deems high-risk without risk adjustment) and skip a further 19.8% of high-risk tasks, which would have been answered incorrectly.

arxiv情報

著者 Ke Shen,Mayank Kejriwal
発行日 2023-10-05 03:20:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク