CEval: A Benchmark for Evaluating Counterfactual Text Generation

要約

反事実的なテキストの生成は、異なる分類方法でテキストを最小限に変更することを目的としています。
反事実テキスト生成のための方法開発の進歩を判断することは、関連作業におけるデータセットとメトリクスの不均一な使用によって妨げられています。
反事実テキスト生成方法を比較するためのベンチマークである CEval を提案します。
CEval は、反事実とテキストの品質メトリクスを統合し、人間による注釈を備えた共通の反事実データセット、標準ベースライン (MICE、GDBA、CREST)、およびオープンソース言語モデル LLAMA-2 を含みます。
私たちの実験では、反事実のテキストを生成するための完璧な方法は見つかりませんでした。
反事実の指標に優れたメソッドは低品質のテキストを生成することがよくありますが、単純なプロンプトを備えた LLM は高品質のテキストを生成しますが、反事実の基準に苦労します。
CEval をオープンソース Python ライブラリとして利用できるようにすることで、コミュニティがより多くのメソッドを提供し、将来の作業で一貫した評価を維持することを奨励します。

要約(オリジナル)

Counterfactual text generation aims to minimally change a text, such that it is classified differently. Judging advancements in method development for counterfactual text generation is hindered by a non-uniform usage of data sets and metrics in related work. We propose CEval, a benchmark for comparing counterfactual text generation methods. CEval unifies counterfactual and text quality metrics, includes common counterfactual datasets with human annotations, standard baselines (MICE, GDBA, CREST) and the open-source language model LLAMA-2. Our experiments found no perfect method for generating counterfactual text. Methods that excel at counterfactual metrics often produce lower-quality text while LLMs with simple prompts generate high-quality text but struggle with counterfactual criteria. By making CEval available as an open-source Python library, we encourage the community to contribute more methods and maintain consistent evaluation in future work.

arxiv情報

著者 Van Bach Nguyen,Jörg Schlötterer,Christin Seifert
発行日 2024-04-26 15:23:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク