要約
多くの研究が説明の生成に焦点を当てていますが、生成された説明の品質を有意義な方法で評価する方法はまだ不明です。
今日の主なアプローチは、説明を (人間が注釈を付けた) ゴールドの説明と比較するプロキシ スコアを使用して説明を定量化することです。
このアプローチは、より高いプロキシ スコアに到達する説明は、人間のユーザーにも大きな利益をもたらすと想定しています。
この論文では、このアプローチの問題点を提示します。
具体的には、(i)説明品質の望ましい特性を定式化し、(ii)現在の評価慣行がそれらにどのように違反しているかを説明し、(iii)状態の説明品質を調査するクラウドソーシングのケーススタディからの初期証拠を使用して、議論をサポートします。
-最先端の説明可能な質問応答システム。
プロキシ スコアは、人間の品質評価との相関が低く、さらに、使用頻度が高くなるほど表現力が低下することがわかりました (つまり、グッドハートの法則に従っています)。
最後に、人間のユーザーに具体的なメリットを提供するシステムの開発を促進するために、説明の意味のある評価を可能にするガイドラインを提案します。
要約(オリジナル)
While much research focused on producing explanations, it is still unclear how the produced explanations’ quality can be evaluated in a meaningful way. Today’s predominant approach is to quantify explanations using proxy scores which compare explanations to (human-annotated) gold explanations. This approach assumes that explanations which reach higher proxy scores will also provide a greater benefit to human users. In this paper, we present problems of this approach. Concretely, we (i) formulate desired characteristics of explanation quality, (ii) describe how current evaluation practices violate them, and (iii) support our argumentation with initial evidence from a crowdsourcing case study in which we investigate the explanation quality of state-of-the-art explainable question answering systems. We find that proxy scores correlate poorly with human quality ratings and, additionally, become less expressive the more often they are used (i.e. following Goodhart’s law). Finally, we propose guidelines to enable a meaningful evaluation of explanations to drive the development of systems that provide tangible benefits to human users.
arxiv情報
著者 | Hendrik Schuff,Heike Adel,Peng Qi,Ngoc Thang Vu |
発行日 | 2023-03-09 09:17:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google