Can Large Language Models Explain Themselves?

要約

命令調整された大規模言語モデル (LLM) は多くのタスクに優れており、その動作の説明も提供します。
これらのモデルは一般の人が直接アクセスできるため、説得力のある間違った説明が LLM に対する裏付けのない信頼につながる危険性があります。
したがって、解釈可能性、すなわち自己説明の忠実性は、AI の安全性にとって重要な考慮事項です。
自己説明と呼ばれる、これらの説明の解釈可能性、つまり忠実性を評価することは、人間が何が正しい説明であるかを注釈するにはモデルが複雑すぎるため、困難です。
これに対処するために、忠実性の尺度として自己一貫性チェックを採用することを提案します。
たとえば、LLM が予測を行うために一連の単語が重要であると言っている場合、これらの単語がなければ同じ予測を行うことはできないはずです。
自己一貫性チェックは忠実性に対する一般的なアプローチですが、これまで LLM の自己説明には適用されていませんでした。
私たちは、反事実、重要度、編集という 3 つのタイプの自己説明に自己一貫性チェックを適用します。
私たちの研究は、忠実度がタスクとモデルの両方に依存していることを示しています。たとえば、感情分類では、反事実の説明は Llama2 でより忠実であり、重要度はミストラルで、編集はファルコン 40B でより忠実です。
最後に、私たちの調査結果は、プロンプト変動に対して堅牢です。

要約(オリジナル)

Instruction-tuned large language models (LLMs) excel at many tasks, and will even provide explanations for their behavior. Since these models are directly accessible to the public, there is a risk that convincing and wrong explanations can lead to unsupported confidence in LLMs. Therefore, interpretability-faithfulness of self-explanations is an important consideration for AI Safety. Assessing the interpretability-faithfulness of these explanations, termed self-explanations, is challenging as the models are too complex for humans to annotate what is a correct explanation. To address this, we propose employing self-consistency checks as a measure of faithfulness. For example, if an LLM says a set of words is important for making a prediction, then it should not be able to make the same prediction without these words. While self-consistency checks are a common approach to faithfulness, they have not previously been applied to LLM’s self-explanations. We apply self-consistency checks to three types of self-explanations: counterfactuals, importance measures, and redactions. Our work demonstrate that faithfulness is both task and model dependent, e.g., for sentiment classification, counterfactual explanations are more faithful for Llama2, importance measures for Mistral, and redaction for Falcon 40B. Finally, our findings are robust to prompt-variations.

arxiv情報

著者 Andreas Madsen,Sarath Chandar,Siva Reddy
発行日 2024-01-15 19:39:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク