Are Human Explanations Always Helpful? Towards Objective Evaluation of Human Natural Language Explanations

要約

タイトル:人間の自然言語説明は常に役に立つのか?客観的な評価へ

要約:
– 説明可能なNLPモデルのトレーニングにおいて、人間による注釈付けと説明は重要である。
– しかし、人間によるラベル付けの品質が多数決で測定しやすいのに対し、自由形式の説明はかなり主観的な場合がある。
– そのため、人間の注釈付き説明をMLモデルの学習に盲目的に使用する前に、品質を評価する必要がある。
– この論文では、人間による説明の品質は、注釈が収集されたNLPタスクのモデルパフォーマンスへの役立ち度(または障害度)に基づいて測定できるという考えに基づいている。
– 一般的に使用される類似度スコアに比べ、fine-tuningと推論の両方で説明のモデルパフォーマンスへの役立ち度を考慮できる新しいメトリックを定義する。
– 統一されたデータセットフォーマットの支援を受け、5つのデータセット(たとえば、e-SNLI)で2つのモデルアーキテクチャ(T5とBART)に対して、提案されたメトリックを評価し、結果は、Simulatabilityが不十分であるのに対し、提案されたメトリックが人間による注釈付きの説明の品質を客観的に評価できることを示している。

要約(オリジナル)

Human-annotated labels and explanations are critical for training explainable NLP models. However, unlike human-annotated labels whose quality is easier to calibrate (e.g., with a majority vote), human-crafted free-form explanations can be quite subjective, as some recent works have discussed. Before blindly using them as ground truth to train ML models, a vital question needs to be asked: How do we evaluate a human-annotated explanation’s quality? In this paper, we build on the view that the quality of a human-annotated explanation can be measured based on its helpfulness (or impairment) to the ML models’ performance for the desired NLP tasks for which the annotations were collected. In comparison to the commonly used Simulatability score, we define a new metric that can take into consideration the helpfulness of an explanation for model performance at both fine-tuning and inference. With the help of a unified dataset format, we evaluated the proposed metric on five datasets (e.g., e-SNLI) against two model architectures (T5 and BART), and the results show that our proposed metric can objectively evaluate the quality of human-annotated explanations, while Simulatability falls short.

arxiv情報

著者 Bingsheng Yao,Prithviraj Sen,Lucian Popa,James Hendler,Dakuo Wang
発行日 2023-05-04 19:31:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク