Which Side Are You On? A Multi-task Dataset for End-to-End Argument Summarisation and Evaluation

要約

最近の大規模言語モデル (LLM) の進歩により、人々が説得力のある議論をまとめるのに役立つ自動ディベート システムを構築することはもはや不可能ではなくなりました。
以前の研究では、複数のコンポーネントを統合することによってこのタスクを試みました。
私たちの研究では、議論のための議論エッセイを準備するエンドツーエンドのプロセスをキャプチャする議論マイニング データセットを導入します。これには、主張と証拠の特定 (タスク 1 ED)、証拠の説得力ランキング (タスク 2 ECR) のタスクが含まれます。
)、議論的なエッセイの要約と人間の好みのランキング(タスク 3 ASR)、および議論の質の側面に沿った人間のフィードバックに基づく、結果のエッセイの自動評価のための指標学習(タスク 4 SQE)。
私たちのデータセットには、前述のタスクをサポートするさまざまなプロパティで完全に注釈が付けられたクレームの 14,000 個の例が含まれています。
これらのタスクごとに、代表的な LLM を含む複数の生成ベースラインを評価します。
私たちのベンチマークでは、個々のタスクでは有望な結果が示されていますが、連続する 4 つのタスクすべてでのエンドツーエンドのパフォーマンスは、自動化された測定と人間中心の評価の両方で大幅に低下していることがわかりました。
私たちが提案したデータセットによって提示されたこの課題は、エンドツーエンドの議論のマイニングと要約に関する今後の研究の動機付けとなります。
このプロジェクトのリポジトリは、https://github.com/HaoBytes/ArgSum-Datatset で入手できます。

要約(オリジナル)

With the recent advances of large language models (LLMs), it is no longer infeasible to build an automated debate system that helps people to synthesise persuasive arguments. Previous work attempted this task by integrating multiple components. In our work, we introduce an argument mining dataset that captures the end-to-end process of preparing an argumentative essay for a debate, which covers the tasks of claim and evidence identification (Task 1 ED), evidence convincingness ranking (Task 2 ECR), argumentative essay summarisation and human preference ranking (Task 3 ASR) and metric learning for automated evaluation of resulting essays, based on human feedback along argument quality dimensions (Task 4 SQE). Our dataset contains 14k examples of claims that are fully annotated with the various properties supporting the aforementioned tasks. We evaluate multiple generative baselines for each of these tasks, including representative LLMs. We find, that while they show promising results on individual tasks in our benchmark, their end-to-end performance on all four tasks in succession deteriorates significantly, both in automated measures as well as in human-centred evaluation. This challenge presented by our proposed dataset motivates future research on end-to-end argument mining and summarisation. The repository of this project is available at https://github.com/HaoBytes/ArgSum-Datatset

arxiv情報

著者 Hao Li,Yuping Wu,Viktor Schlegel,Riza Batista-Navarro,Tharindu Madusanka,Iqra Zahid,Jiayan Zeng,Xiaochi Wang,Xinran He,Yizhi Li,Goran Nenadic
発行日 2024-08-20 15:41:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク