要約
自然言語生成モデル、特にメソッド名の予測を評価することは、重大な課題を引き起こします。
堅牢なメトリックでは、意味論と構文の両方のバリエーションを考慮して、メソッド名の付け方の多様性を考慮する必要があります。
ROUGE などの従来の重複ベースの指標では、これらのニュアンスを捉えることができません。
既存の埋め込みベースのメトリックは、精度と再現率が不均衡である、正規化されたスコアが欠如している、またはシーケンスについて非現実的な仮定を行っていることがよくあります。
これらの制限に対処するために、私たちは最適なトランスポートの理論を活用し、シンプルさと効率性のバランスをとる新しい指標である WRDScore を構築しました。
WRDScore フレームワークでは、予測シーケンスのトークンがトークンごとに参照シーケンスに含まれる最大程度として精度を定義します。
リコールは、参照シーケンスを予測シーケンスにマッピングする最適な輸送計画の総コストとして計算されます。
最後に、WRDScore は精度と再現率の調和平均として計算され、これら 2 つの相補的な指標のバランスがとれます。
私たちの指標は軽量で正規化され、再現率を重視しており、非現実的な仮定を避けながら人間の判断とよく一致しています。
人間が厳選したデータセットでの実験により、他の利用可能なテキスト指標に対する WRDScore の優位性が確認されました。
要約(オリジナル)
Evaluating natural language generation models, particularly for method name prediction, poses significant challenges. A robust metric must account for the versatility of method naming, considering both semantic and syntactic variations. Traditional overlap-based metrics, such as ROUGE, fail to capture these nuances. Existing embedding-based metrics often suffer from imbalanced precision and recall, lack normalized scores, or make unrealistic assumptions about sequences. To address these limitations, we leverage the theory of optimal transport and construct WRDScore, a novel metric that strikes a balance between simplicity and effectiveness. In the WRDScore framework, we define precision as the maximum degree to which the predicted sequence’s tokens are included in the reference sequence, token by token. Recall is calculated as the total cost of the optimal transport plan that maps the reference sequence to the predicted one. Finally, WRDScore is computed as the harmonic mean of precision and recall, balancing these two complementary metrics. Our metric is lightweight, normalized, and precision-recall-oriented, avoiding unrealistic assumptions while aligning well with human judgments. Experiments on a human-curated dataset confirm the superiority of WRDScore over other available text metrics.
arxiv情報
著者 | Ravil Mussabayev |
発行日 | 2024-08-13 13:32:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google