WRDScore: New Metric for Evaluation of Natural Language Generation Models

要約

自然言語生成の問題、より具体的にはメソッド名の予測の問題は、提案されたモデルをテスト データで評価する必要がある場合に大きな困難に直面します。
このようなメトリクスでは、セマンティクスと構文の両方に関して、単一のメソッドに名前を付けることができる汎用性を考慮する必要があります。
予測配列と参照 (真) 配列の間の直接の重複を測定しても、これらの微妙な点を捉えることはできません。
他の既存の埋め込みベースのメトリクスは、精度と再現率を測定しないか、両方のシーケンスに厳密で非現実的な仮定を課します。
これらの問題に対処するために、一方では非常にシンプルで軽量であり、他方では、いかなる仮定にも頼ることなく精度と再現率を計算しながら、
人間の判断。

要約(オリジナル)

The problem of natural language generation, and, more specifically, method name prediction, faces significant difficulties when proposed models need to be evaluated on test data. Such a metric would need to consider the versatility with which a single method can be named, with respect to both semantics and syntax. Measuring the direct overlap between the predicted and reference (true) sequences will not be able to capture these subtleties. Other existing embedding based metrics either do not measure precision and recall or impose strict unrealistic assumptions on both sequences. To address these issues, we propose a new metric that, on the one hand, is very simple and lightweight, and, on the other hand, is able to calculate precision and recall without resorting to any assumptions while obtaining good performance with respect to the human judgement.

arxiv情報

著者 Ravil Mussabayev
発行日 2024-06-18 14:53:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク