REV: Information-Theoretic Evaluation of Free-Text Rationales

要約

フリーテキストの根拠を生成することは、説明可能なNLPへの有望なステップであるが、そのような根拠を評価することは依然として課題である。既存のメトリクスは、根拠と与えられたラベルの関連性を測定することに重点を置いている。我々は、理想的な評価基準は、入力やラベルでは提供されない、論理的根拠で独自に提供される新しい情報に焦点を当てるべきであると主張する。この研究課題を、条件付きV情報(Hewitt et al., 2021)を用いた情報理論的な観点から検討する。より具体的には、REV (Rationale Evaluation with conditional V-information) と呼ばれる指標を提案し、入力やラベルで既に提供されている情報を超えて、根拠となるラベルに関連する新しい情報の量を定量化します。思考の連鎖を含む推論タスクの4つのベンチマークを用いた実験により、既存のメトリクスと比較して、REVが理由付けとラベルのペアを評価する際に有効であることを実証した。さらに、REVは合理性評価に関する人間の判断と一致し、フリーテキストの合理性における新情報をより敏感に測定できることを実証した。従来のパフォーマンスメトリクスと併用することで、REVはモデルの推論と予測プロセスについてより深い洞察を提供します。

要約(オリジナル)

Generating free-text rationales is a promising step towards explainable NLP, yet evaluating such rationales remains a challenge. Existing metrics have mostly focused on measuring the association between the rationale and a given label. We argue that an ideal metric should focus on the new information uniquely provided in the rationale that is otherwise not provided in the input or the label. We investigate this research problem from an information-theoretic perspective using conditional V-information (Hewitt et al., 2021). More concretely, we propose a metric called REV (Rationale Evaluation with conditional V-information), to quantify the amount of new, label-relevant information in a rationale beyond the information already available in the input or the label. Experiments across four benchmarks with reasoning tasks, including chain-of-thought, demonstrate the effectiveness of REV in evaluating rationale-label pairs, compared to existing metrics. We further demonstrate REV is consistent with human judgments on rationale evaluations and provides more sensitive measurements of new information in free-text rationales. When used alongside traditional performance metrics, REV provides deeper insights into models’ reasoning and prediction processes.

arxiv情報

著者 Hanjie Chen,Faeze Brahman,Xiang Ren,Yangfeng Ji,Yejin Choi,Swabha Swayamdipta
発行日 2023-06-02 15:27:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク