We Need to Talk About Classification Evaluation Metrics in NLP

要約

トピックの分類やセンチメント分析などの自然言語処理 (NLP) 分類タスクでは、モデルの一般化可能性は通常、Accuracy、F-Measure、AUC-ROC などの標準メトリクスを使用して測定されます。
メトリクスの多様性とその適用の恣意性は、使用するのに最適な単一のメトリクスについて NLP 内で合意がないことを示唆しています。
この欠如は、各メトリクスがエンコードする基礎となるヒューリスティックの十分な検査が行われていないことを示唆しています。
これに対処するために、いくつかの標準的な分類メトリクスをより「珍しい」メトリクスと比較し、ランダム推測で正規化された情報メトリクスがタスク パフォーマンスの倹約ベースラインであることを実証します。
指標の選択がいかに重要であるかを示すために、合成シナリオ、自然言語理解、質問応答、機械翻訳を含む幅広い NLP タスクについて広範な実験を実行します。
これらのタスク全体で、メトリクスのスーパーセットを使用してモデルをランク付けし、Informedness が理想的なモデルの特性を最もよく捉えていることがわかります。
最後に、SciKitLearn 分類子形式に従って Informedness の Python 実装をリリースします。

要約(オリジナル)

In Natural Language Processing (NLP) classification tasks such as topic categorisation and sentiment analysis, model generalizability is generally measured with standard metrics such as Accuracy, F-Measure, or AUC-ROC. The diversity of metrics, and the arbitrariness of their application suggest that there is no agreement within NLP on a single best metric to use. This lack suggests there has not been sufficient examination of the underlying heuristics which each metric encodes. To address this we compare several standard classification metrics with more ‘exotic’ metrics and demonstrate that a random-guess normalised Informedness metric is a parsimonious baseline for task performance. To show how important the choice of metric is, we perform extensive experiments on a wide range of NLP tasks including a synthetic scenario, natural language understanding, question answering and machine translation. Across these tasks we use a superset of metrics to rank models and find that Informedness best captures the ideal model characteristics. Finally, we release a Python implementation of Informedness following the SciKitLearn classifier format.

arxiv情報

著者 Peter Vickers,Loïc Barrault,Emilio Monti,Nikolaos Aletras
発行日 2024-01-08 11:40:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク