要約
計算言語学の魅力的な分野である反論の生成では、反対の見解を提供するステートメントを作成しようとします。
ほとんどの研究は段落レベルの生成に取り組んでいますが、文レベルの反論の生成には、独特の制約と簡潔さ重視の課題が伴います。
さらに、反論の多様な性質により、n グラムベースのメトリクスのみに基づいてモデルのパフォーマンスを評価する場合に課題が生じます。
このペーパーでは、ChangeMyView ディベート フォーラムから手動で注釈が付けられたデータセットを基にした、文レベルの反論生成のための ArgTersely ベンチマークを紹介します。
また、質の高い反論を生成するための Arg-LlaMA も提案します。
より良い評価を行うために、人間の嗜好データを使用して BERT ベースの評価者 Arg-Judge をトレーニングしました。
LlaMA、Alpaca、GPT-3 などのさまざまなベースラインを含む比較実験を実施しました。
結果は、反論生成タスクにおける私たちの提案したフレームワークと評価器の競争力を示しています。
コードとデータは https://github.com/amazingljy1206/ArgTersely で入手できます。
要約(オリジナル)
Counter-argument generation — a captivating area in computational linguistics — seeks to craft statements that offer opposing views. While most research has ventured into paragraph-level generation, sentence-level counter-argument generation beckons with its unique constraints and brevity-focused challenges. Furthermore, the diverse nature of counter-arguments poses challenges for evaluating model performance solely based on n-gram-based metrics. In this paper, we present the ArgTersely benchmark for sentence-level counter-argument generation, drawing from a manually annotated dataset from the ChangeMyView debate forum. We also propose Arg-LlaMA for generating high-quality counter-argument. For better evaluation, we trained a BERT-based evaluator Arg-Judge with human preference data. We conducted comparative experiments involving various baselines such as LlaMA, Alpaca, GPT-3, and others. The results show the competitiveness of our proposed framework and evaluator in counter-argument generation tasks. Code and data are available at https://github.com/amazingljy1206/ArgTersely.
arxiv情報
著者 | Jiayu Lin,Rong Ye,Meng Han,Qi Zhang,Ruofei Lai,Xinyu Zhang,Zhao Cao,Xuanjing Huang,Zhongyu Wei |
発行日 | 2023-12-21 06:51:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google