要約
タイトル:MENLI: Robust Evaluation Metrics from Natural Language Inference
要約:
– BERTベースのテキスト生成の評価指標は、標準ベンチマークには優れているが、情報の正確さに関連する攻撃には弱いことがわかった。
– この問題は、それらが意味の類似性モデルであることに起因すると考えられる。
– 一方、より適切なモデリングであると考えられる自然言語推論(NLI)に基づく評価指標を開発した。
– 好みに基づく攻撃フレームワークを設計し、NLIベースのメトリックが、最近のBERTベースのメトリックよりも攻撃に対してはるかに堅牢であることを示した。
– 標準ベンチマークでは、NLIベースのメトリックが既存の要約メトリックよりも優れているが、SOTA MTメトリックよりも性能が低い。
– ただし、既存のメトリックとNLIメトリックを組み合わせると、攻撃に対する堅牢性(15%-30%)と標準ベンチマークで測定される品質メトリック(+5%から30%)が向上する。
要約(オリジナル)
Recently proposed BERT-based evaluation metrics for text generation perform well on standard benchmarks but are vulnerable to adversarial attacks, e.g., relating to information correctness. We argue that this stems (in part) from the fact that they are models of semantic similarity. In contrast, we develop evaluation metrics based on Natural Language Inference (NLI), which we deem a more appropriate modeling. We design a preference-based adversarial attack framework and show that our NLI based metrics are much more robust to the attacks than the recent BERT-based metrics. On standard benchmarks, our NLI based metrics outperform existing summarization metrics, but perform below SOTA MT metrics. However, when combining existing metrics with our NLI metrics, we obtain both higher adversarial robustness (15%-30%) and higher quality metrics as measured on standard benchmarks (+5% to 30%).
arxiv情報
| 著者 | Yanran Chen,Steffen Eger |
| 発行日 | 2023-04-03 16:15:04+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI