Discourse Analysis via Questions and Answers: Parsing Dependency Structures of Questions Under Discussion

要約

現在の談話形式は、談話関係の大規模な分類を含む高度なアノテーションを必要とするため、素人のアノテーターには手が出せない。そこで本研究では、Questions Under Discussion (QUD)という言語的枠組みを談話分析に採用し、QUD構造を自動的に導出することを目指す。QUDでは、各文章を事前の文脈で引き起こされた質問に対する答えと見なし、文の関係を自由形式の質問と見なし、網羅的な細かい分類法とは対照的に、文間の関係を特徴付ける。我々は、クラウドソースによる大規模な質問応答データセットDCQA (Ko et al., 2022)を用いて訓練し、完全な文書に対する質問の依存構造を導き出す、世界で最初のQUDパーサーを開発した。人間による評価結果は、このクラウドソーシングによる一般化可能なアノテーションスキームで訓練された言語モデルにおいて、QUD依存構造解析が可能であることを示している。また、我々のQUD構造がRST木とどのように異なるかを説明し、文書簡略化の文脈におけるQUD解析の有用性を実証する。この結果は、QUD構文解析が自動談話処理の魅力的な選択肢であることを示している。

要約(オリジナル)

Automatic discourse processing is bottlenecked by data: current discourse formalisms pose highly demanding annotation tasks involving large taxonomies of discourse relations, making them inaccessible to lay annotators. This work instead adopts the linguistic framework of Questions Under Discussion (QUD) for discourse analysis and seeks to derive QUD structures automatically. QUD views each sentence as an answer to a question triggered in prior context; thus, we characterize relationships between sentences as free-form questions, in contrast to exhaustive fine-grained taxonomies. We develop the first-of-its-kind QUD parser that derives a dependency structure of questions over full documents, trained using a large, crowdsourced question-answering dataset DCQA (Ko et al., 2022). Human evaluation results show that QUD dependency parsing is possible for language models trained with this crowdsourced, generalizable annotation scheme. We illustrate how our QUD structure is distinct from RST trees, and demonstrate the utility of QUD analysis in the context of document simplification. Our findings show that QUD parsing is an appealing alternative for automatic discourse processing.

arxiv情報

著者 Wei-Jen Ko,Yating Wu,Cutter Dalton,Dananjay Srinivas,Greg Durrett,Junyi Jessy Li
発行日 2023-05-12 15:01:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク