要約
議論の質の自動評価は、誤った情報や的を絞った言論に重大な影響を与える困難な作業であると認識されています。
現実世界の議論は文脈にしっかりと固定されていますが、既存の計算手法はその品質を個別に分析するため、その精度と一般化可能性に影響を与えます。
私たちは SPARK を提案します。これは、関連する知識による文脈化に基づいて議論の質をスコアリングする新しい方法です。
私たちは、大規模な言語モデルを活用してフィードバックを提供したり、隠れた仮定を推測したり、同様の品質の議論を提供したり、反論を行ったりする 4 つの拡張を考案しました。
SPARK は、デュアル エンコーダ Transformer アーキテクチャを使用して、元の引数とその拡張を一緒に考慮できるようにします。
ドメイン内セットアップとゼロショットセットアップの両方での実験では、SPARK が複数のメトリクスにわたって既存の手法を常に上回るパフォーマンスを示しています。
要約(オリジナル)
Automatic assessment of the quality of arguments has been recognized as a challenging task with significant implications for misinformation and targeted speech. While real-world arguments are tightly anchored in context, existing computational methods analyze their quality in isolation, which affects their accuracy and generalizability. We propose SPARK: a novel method for scoring argument quality based on contextualization via relevant knowledge. We devise four augmentations that leverage large language models to provide feedback, infer hidden assumptions, supply a similar-quality argument, or give a counter-argument. SPARK uses a dual-encoder Transformer architecture to enable the original argument and its augmentation to be considered jointly. Our experiments in both in-domain and zero-shot setups show that SPARK consistently outperforms existing techniques across multiple metrics.
arxiv情報
著者 | Darshan Deshpande,Zhivar Sourati,Filip Ilievski,Fred Morstatter |
発行日 | 2023-11-08 18:41:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google