要約
高度な AI システムを監督するには、その根底にある意思決定プロセスを理解することが重要です。
プロンプトが表示されると、大規模言語モデル (LLM) は、もっともらしく聞こえる自然言語による説明や推論トレースを提供し、ヒューマン アノテーターから高い評価を受けることができます。
ただし、これらの説明がどの程度忠実であるか、つまりモデルの予測に関与する要因を本当に捉えているかは不明です。
この研究では、入力介入に基づく忠実度テストで使用できる指標である相関説明的忠実度 (CEF) を導入します。
このようなテストで使用される以前のメトリクスは、予測におけるバイナリの変化のみを考慮していました。
私たちのメトリクスは、モデルの予測されたラベル分布の全体的なシフトを考慮しており、説明の忠実さをより正確に反映しています。
次に、Atanasova らの反事実テスト (CT) 上で CEF をインスタンス化することにより、相関反事実テスト (CCT) を導入します。
(2023年)。
3 つの NLP タスクに関して、Llama2 ファミリーの少数ショット プロンプト LLM によって生成されたフリーテキストの説明の忠実性を評価します。
私たちの指標は、CT が見逃している忠実性の側面を測定していることがわかりました。
要約(オリジナル)
In order to oversee advanced AI systems, it is important to understand their underlying decision-making process. When prompted, large language models (LLMs) can provide natural language explanations or reasoning traces that sound plausible and receive high ratings from human annotators. However, it is unclear to what extent these explanations are faithful, i.e., truly capture the factors responsible for the model’s predictions. In this work, we introduce Correlational Explanatory Faithfulness (CEF), a metric that can be used in faithfulness tests based on input interventions. Previous metrics used in such tests take into account only binary changes in the predictions. Our metric accounts for the total shift in the model’s predicted label distribution, more accurately reflecting the explanations’ faithfulness. We then introduce the Correlational Counterfactual Test (CCT) by instantiating CEF on the Counterfactual Test (CT) from Atanasova et al. (2023). We evaluate the faithfulness of free-text explanations generated by few-shot-prompted LLMs from the Llama2 family on three NLP tasks. We find that our metric measures aspects of faithfulness which the CT misses.
arxiv情報
著者 | Noah Y. Siegel,Oana-Maria Camburu,Nicolas Heess,Maria Perez-Ortiz |
発行日 | 2024-06-07 11:54:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google