要約
文法的誤り訂正 (GEC) に関してさまざまな評価指標が提案されていますが、多くの評価指標、特に参照のない指標は説明可能性に欠けています。
この説明可能性の欠如により、研究者が GEC モデルの長所と短所を分析することが妨げられ、ユーザーに詳細なフィードバックを提供する能力が制限されます。
この問題に対処するために、私たちは文レベルのスコアを個々の編集に帰属させ、特定の修正が全体的なパフォーマンスにどのように寄与するかについての洞察を提供することを提案します。
アトリビューション方法では、協力ゲーム理論からの Shapley 値を使用して、各編集の貢献度を計算します。
既存の文レベルの指標を用いた実験では、さまざまな編集粒度にわたって高い一貫性が実証され、人間による評価と約 70% 一致していることが示されています。
さらに、アトリビューション結果に基づいて指標の偏りを分析し、正投影編集を無視する傾向などの傾向を明らかにします。
私たちの実装は \url{https://github.com/naist-nlp/gec-attribute} で入手できます。
要約(オリジナル)
Various evaluation metrics have been proposed for Grammatical Error Correction (GEC), but many, particularly reference-free metrics, lack explainability. This lack of explainability hinders researchers from analyzing the strengths and weaknesses of GEC models and limits the ability to provide detailed feedback for users. To address this issue, we propose attributing sentence-level scores to individual edits, providing insight into how specific corrections contribute to the overall performance. For the attribution method, we use Shapley values, from cooperative game theory, to compute the contribution of each edit. Experiments with existing sentence-level metrics demonstrate high consistency across different edit granularities and show approximately 70\% alignment with human evaluations. In addition, we analyze biases in the metrics based on the attribution results, revealing trends such as the tendency to ignore orthographic edits. Our implementation is available at \url{https://github.com/naist-nlp/gec-attribute}.
arxiv情報
著者 | Takumi Goto,Justin Vasselli,Taro Watanabe |
発行日 | 2024-12-17 17:31:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google