This is not correct! Negation-aware Evaluation of Language Generation Systems

要約

大規模な言語モデルでは、否定が文の意味をどれだけ変えるかについて、否定の影響が過小評価されます。
したがって、これらのモデルに基づいて学習された評価指標は否定の影響を受けません。
この論文では、BLEURT 評価指標の否定認識バージョンである NegBLEURT を提案します。
そのために、ルールベースの文否定ツールを設計し、それを使用して CANNOT 否定評価データセットを作成しました。
このデータセットに基づいて、文変換と評価指標を微調整して、否定感度を向上させました。
既存のベンチマークでこれらのモデルを評価すると、微調整されたモデルは、他の摂動に対する基本モデルのパフォーマンスを維持しながら、否定文に関しては既存のメトリクスをはるかに上回るパフォーマンスを示すことがわかります。

要約(オリジナル)

Large language models underestimate the impact of negations on how much they change the meaning of a sentence. Therefore, learned evaluation metrics based on these models are insensitive to negations. In this paper, we propose NegBLEURT, a negation-aware version of the BLEURT evaluation metric. For that, we designed a rule-based sentence negation tool and used it to create the CANNOT negation evaluation dataset. Based on this dataset, we fine-tuned a sentence transformer and an evaluation metric to improve their negation sensitivity. Evaluating these models on existing benchmarks shows that our fine-tuned models outperform existing metrics on the negated sentences by far while preserving their base models’ performances on other perturbations.

arxiv情報

著者 Miriam Anschütz,Diego Miguel Lozano,Georg Groh
発行日 2023-07-26 06:54:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク