Auditing Counterfire: Evaluating Advanced Counterargument Generation with Evidence and Style

要約

私たちは、Reddit ChangeMyView データセットからの投稿に対する証拠に基づいた文体的な反論を生成する LLM の機能に焦点を当て、大規模言語モデル (LLM) によって生成された反論を監査しました。
私たちの評価は、Counterfire に基づいています。これは、大規模言語モデル (LLM) から生成された 32,000 の反論の新しいデータセットです。GPT-3.5 Turbo および Koala とその微調整されたバリアント、および証拠の使用と議論のスタイルに関するさまざまなプロンプトを備えた PaLM 2 です。

GPT-3.5 Turbo は、特に「互恵性」スタイルの議論において、強力な言い換えとスタイルの遵守により、議論の質において最高ランクにランクされました。
しかし、平均して「ノースタイル」の反論が最も説得力があることが判明した。
この調査結果は、説得力のある反論には証拠性と文体的要素のバランスが不可欠であることを示唆しています。
最後に、今後の研究の方向性と LLM の微調整への影響について説明します。

要約(オリジナル)

We audited counter-arguments generated by large language models (LLMs), focusing on their ability to generate evidence-based and stylistic counter-arguments to posts from the Reddit ChangeMyView dataset. Our evaluation is based on Counterfire: a new dataset of 32,000 counter-arguments generated from large language models (LLMs): GPT-3.5 Turbo and Koala and their fine-tuned variants, and PaLM 2, with varying prompts for evidence use and argumentative style. GPT-3.5 Turbo ranked highest in argument quality with strong paraphrasing and style adherence, particularly in `reciprocity’ style arguments. However, the `No Style’ counter-arguments proved most persuasive on average. The findings suggest that a balance between evidentiality and stylistic elements is vital to a compelling counter-argument. We close with a discussion of future research directions and implications for fine-tuning LLMs.

arxiv情報

著者 Preetika Verma,Kokil Jaidka,Svetlana Churina
発行日 2024-03-30 15:08:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク