要約
談話構造に関するさまざまな理論の発展により、これらの理論に基づいた談話コーパスが確立されました。
しかし、さまざまな理論的基盤に基づいて確立された言説コーパスが存在するため、それらを一貫した一貫した方法で探求する際に課題が生じます。
この研究は、PDTB アノテーションを依存構造に変換することに主な焦点を当てています。
洗練された BERT ベースの談話パーサーを使用して、英語、中国語、およびその他のいくつかの言語の PDTB スタイルのコーパスから派生した依存関係データの有効性をテストします。
この研究では、同じテキストの PDTB と RST の両方の注釈を依存関係に変換することにより、「依存関係の距離」メトリクスを適用して、英語における RST 依存関係と PDTB 依存関係の間の相関関係を調べています。
結果は、PDTB 依存関係データが有効であり、2 種類の依存関係距離の間に強い相関関係があることを示しています。
この研究は、談話の依存関係を利用して統一的な分析を達成することにより、談話コーパスを分析および評価するための包括的なアプローチを提示します。
依存関係表現を適用することにより、一貫した統一された方法で PDTB、RST、および SDRT コーパスからデータを抽出できます。
さらに、言語横断的な検証により、英語を超えてフレームワークの一般化可能性が確立されます。
この包括的な依存関係フレームワークの確立により、既存の談話コーパスの限界が克服され、多様なアルゴリズムがサポートされ、計算論談分析と言語科学におけるさらなる研究が促進されます。
要約(オリジナル)
The development of different theories of discourse structure has led to the establishment of discourse corpora based on these theories. However, the existence of discourse corpora established on different theoretical bases creates challenges when it comes to exploring them in a consistent and cohesive way. This study has as its primary focus the conversion of PDTB annotations into dependency structures. It employs refined BERT-based discourse parsers to test the validity of the dependency data derived from the PDTB-style corpora in English, Chinese, and several other languages. By converting both PDTB and RST annotations for the same texts into dependencies, this study also applies “dependency distance” metrics to examine the correlation between RST dependencies and PDTB dependencies in English. The results show that the PDTB dependency data is valid and that there is a strong correlation between the two types of dependency distance. This study presents a comprehensive approach for analyzing and evaluating discourse corpora by employing discourse dependencies to achieve unified analysis. By applying dependency representations, we can extract data from PDTB, RST, and SDRT corpora in a coherent and unified manner. Moreover, the cross-linguistic validation establishes the framework’s generalizability beyond English. The establishment of this comprehensive dependency framework overcomes limitations of existing discourse corpora, supporting a diverse range of algorithms and facilitating further studies in computational discourse analysis and language sciences.
arxiv情報
著者 | Kun Sun,Rong Wang |
発行日 | 2024-07-17 10:55:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google