Auditing Counterfire: Evaluating Advanced Counterargument Generation with Evidence and Style

要約

我々は、議論の洗練、マイニング、評価におけるさらなる応用のために設計された、制御された反論の構成のための新しいデータセットを提示します。
私たちのデータセットは、Reddit ChangeMyView データセット内の投稿に対する充実した反論を構成し、高品質のソースから取得した証拠と統合され、ユーザーの好みに基づいて生成され、証拠と議論のスタイルの重要な属性を調整します。
結果として得られる Counterfire コーパスは、GPT-3.5 ターボ、Koala、および PaLM 2 モデルと、それらの 2 つの微調整されたバリアントから生成された引数で構成されます (N = 32,000)。
モデルの評価では、単語の重複は限られているものの、証拠を伴う強力な言い換え能力が示され、同時に高度なスタイル統合 (「相反性」で 0.9682) が実証され、多様なスタイルを同化する LLM の能力が示されました。
すべてのモデルの中で、GPT-3.5 ターボは引数の品質評価で最高のスコアを示し、一貫した精度 (スコア > 0.8) を示しました。
さらに分析を進めると、ほとんどのカテゴリーで互恵性スタイルの反論の方が高い数値を示しており、これはおそらく、より創造的に説得力のある証拠の使用を示していると考えられます。
対照的に、人間が書いた反論は、カテゴリー全体でより豊かな議論と多様性を示しました。
人間による評価では人間が書いた議論が最も説得力があると支持されているにもかかわらず、驚くべきことに「スタイルなし」で生成されたテキストが最も高いスコアを示し、事実とスタイルの生成におけるトレードオフについてのさらなる調査と調査が促されました。

要約(オリジナル)

We present a novel dataset for the controlled composition of counterarguments designed for further applications in argument refining, mining, and evaluation. Our dataset constitutes enriched counter-arguments to posts in the Reddit ChangeMyView dataset that are integrated with evidence retrieved from high-quality sources and generated based on user preferences, adjusting the critical attributes of evidence and argument style. The resultant Counterfire corpus comprises arguments generated from GPT-3.5 turbo, Koala, and PaLM 2 models and two of their finetuned variants (N = 32,000). Model evaluation indicates strong paraphrasing abilities with evidence, albeit limited word overlap, while demonstrating high style integration (0.9682 for ‘reciprocity’), showing the ability of LLM to assimilate diverse styles. Of all models, GPT-3.5 turbo showed the highest scores in argument quality evaluation, showing consistent accuracy (score >0.8). In further analyses, reciprocity-style counterarguments display higher counts in most categories, possibly indicating a more creatively persuasive use of evidence. In contrast, human-written counterarguments exhibited greater argumentative richness and diversity across categories. Despite human-written arguments being favored as the most persuasive in human evaluation, the ‘No Style’ generated text surprisingly exhibited the highest score, prompting further exploration and investigation on the trade-offs in generation for facts and style.

arxiv情報

著者 Preetika Verma,Kokil Jaidka,Svetlana Churina
発行日 2024-02-23 14:07:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク