ORCHID: A Chinese Debate Corpus for Target-Independent Stance Detection and Argumentative Dialogue Summarization

要約

対話エージェントはここ数年ますます注目を集めており、この傾向は最近の大規模言語モデル (LLM) の進歩によってさらに加速されています。
スタンスの検出と対話の要約は、議論的な対話を伴うアプリケーション シナリオにおける対話エージェントの 2 つの中心的なタスクです。
ただし、これらのタスクに関する研究は、特に英語以外の言語の場合、公開データセットが不十分であるため制限されています。
中国語におけるこの言語リソースのギャップに対処するために、ターゲットに依存しないスタンス検出と議論の要約をベンチマークするための初の中国語データセットである ORCHID (Oral Chinese Debate) を紹介します。
私たちのデータセットは、476 のユニークなトピックについて中国語で行われた 1,218 件の実際の討論で構成されており、これには 2,436 件の立場別の要約と 14,133 件の完全に注釈が付けられた発話が含まれています。
将来の研究のための多用途のテストベッドを提供するだけでなく、データセットに関する実証研究も実施し、統合されたタスクを提案します。
この結果は、データセットの困難な性質を示しており、議論的な対話の要約にスタンス検出を組み込む可能性を示唆しています。

要約(オリジナル)

Dialogue agents have been receiving increasing attention for years, and this trend has been further boosted by the recent progress of large language models (LLMs). Stance detection and dialogue summarization are two core tasks of dialogue agents in application scenarios that involve argumentative dialogues. However, research on these tasks is limited by the insufficiency of public datasets, especially for non-English languages. To address this language resource gap in Chinese, we present ORCHID (Oral Chinese Debate), the first Chinese dataset for benchmarking target-independent stance detection and debate summarization. Our dataset consists of 1,218 real-world debates that were conducted in Chinese on 476 unique topics, containing 2,436 stance-specific summaries and 14,133 fully annotated utterances. Besides providing a versatile testbed for future research, we also conduct an empirical study on the dataset and propose an integrated task. The results show the challenging nature of the dataset and suggest a potential of incorporating stance detection in summarization for argumentative dialogue.

arxiv情報

著者 Xiutian Zhao,Ke Wang,Wei Peng
発行日 2024-10-17 15:28:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク