MENLI: Robust Evaluation Metrics from Natural Language Inference

要約

タイトル:MENLI:自然言語推論からの堅牢な評価メトリック
要約:

– BERTベースのテキスト生成用評価メトリックは、標準ベンチマークでは良い結果を出すが、情報の正確性に関する攻撃に対して脆弱であることが最近指摘されている。
– これは、それらが意味的類似性モデルであることから一部原因があると主張している。
– 対照的に、より適切なモデリングと考えられる自然言語推論(NLI)に基づく評価メトリックを開発した。
– 好みに基づく攻撃フレームワークを設計し、私たちのNLIベースのメトリックが、最近のBERTベースのメトリックよりも攻撃に対してはるかに堅牢であることを示した。
– 標準ベンチマークでは、私たちのNLIベースのメトリックは既存の要約メトリックを上回り、SOTA MTメトリック以下の性能を発揮する。
– ただし、既存のメトリックを私たちのNLIメトリックと組み合わせると、高い攻撃堅牢性(15%〜30%)と標準ベンチマークで測定した高品質メトリック(+5%〜30%)の両方が得られる。

要約(オリジナル)

Recently proposed BERT-based evaluation metrics for text generation perform well on standard benchmarks but are vulnerable to adversarial attacks, e.g., relating to information correctness. We argue that this stems (in part) from the fact that they are models of semantic similarity. In contrast, we develop evaluation metrics based on Natural Language Inference (NLI), which we deem a more appropriate modeling. We design a preference-based adversarial attack framework and show that our NLI based metrics are much more robust to the attacks than the recent BERT-based metrics. On standard benchmarks, our NLI based metrics outperform existing summarization metrics, but perform below SOTA MT metrics. However, when combining existing metrics with our NLI metrics, we obtain both higher adversarial robustness (15%-30%) and higher quality metrics as measured on standard benchmarks (+5% to 30%).

arxiv情報

著者 Yanran Chen,Steffen Eger
発行日 2023-04-04 10:23:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク