要約
自然言語生成 (NLG) システムの自動評価には、長期にわたる課題があります。
最近の研究では、人間の評価とよく一致するさまざまな神経指標が明らかになりました。
しかし、さまざまな NLG 評価タスクの敵対的データを取得する際に特有の課題があるため、敵対的摂動に対するこれらの評価器の堅牢性は、依然としてほとんど研究されていません。
この問題に対処するために、NLG 評価者に対する新しいブラックボックス敵対フレームワークである AdvEval を導入します。
AdvEval は、人間の評価者と被害者の評価者の間に大きな意見の相違をもたらすデータを生成するように特別に調整されています。
具体的には、テキストの生成と評価における大規模言語モデル (LLM) の最近の成功に触発され、データ ジェネレーターとゴールド評価の両方として強力な LLM を採用しています。
敵対的データは、ゴールド評価者および被害者評価者からのフィードバックによって自動的に最適化されます。
私たちは、対話、要約、質問評価を含むタスクにわたる、12 人の被害者評価者と 11 の NLG データセットに対して実験を実施します。
結果は、AdvEval がさまざまな被害指標の大幅なパフォーマンス低下を引き起こす可能性があることを示しており、それによって AdvEval の有効性が検証されています。
要約(オリジナル)
The automatic evaluation of natural language generation (NLG) systems presents a long-lasting challenge. Recent studies have highlighted various neural metrics that align well with human evaluations. Yet, the robustness of these evaluators against adversarial perturbations remains largely under-explored due to the unique challenges in obtaining adversarial data for different NLG evaluation tasks. To address the problem, we introduce AdvEval, a novel black-box adversarial framework against NLG evaluators. AdvEval is specially tailored to generate data that yield strong disagreements between human and victim evaluators. Specifically, inspired by the recent success of large language models (LLMs) in text generation and evaluation, we adopt strong LLMs as both the data generator and gold evaluator. Adversarial data are automatically optimized with feedback from the gold and victim evaluator. We conduct experiments on 12 victim evaluators and 11 NLG datasets, spanning tasks including dialogue, summarization, and question evaluation. The results show that AdvEval can lead to significant performance degradation of various victim metrics, thereby validating its efficacy.
arxiv情報
著者 | Yiming Chen,Chen Zhang,Danqing Luo,Luis Fernando D’Haro,Robby T. Tan,Haizhou Li |
発行日 | 2024-05-23 14:48:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google