要約
引用文の抽出は、社会学的にも自然言語処理の観点からも広く役立つタスクです。
ただし、英語以外の言語でこのタスクを研究するために利用できるデータはほとんどありません。
この論文では、引用抽出と出典の帰属のために手動で注釈を付けたフランス語の 1676 件のニュースワイヤー テキストのコーパスを紹介します。
まず、コーパスの構成とデータの選択時に行われた選択について説明します。
次に、注釈のガイドラインと注釈のプロセス、さらに最終的なコーパスに関するいくつかの統計と、引用タイプ (特に困難である直接、間接、および混合) 間の取得されたバランスについて詳しく説明します。
最後に、手動ラベル付けに取り組んだ 8 人のアノテーター間のアノテーター間合意について詳しく説明します。これは、このような困難な言語現象としてはかなり高額です。
要約(オリジナル)
Quotation extraction is a widely useful task both from a sociological and from a Natural Language Processing perspective. However, very little data is available to study this task in languages other than English. In this paper, we present a manually annotated corpus of 1676 newswire texts in French for quotation extraction and source attribution. We first describe the composition of our corpus and the choices that were made in selecting the data. We then detail the annotation guidelines and annotation process, as well as a few statistics about the final corpus and the obtained balance between quote types (direct, indirect and mixed, which are particularly challenging). We end by detailing our inter-annotator agreement between the 8 annotators who worked on manual labelling, which is substantially high for such a difficult linguistic phenomenon.
arxiv情報
著者 | Ange Richard,Laura Alonzo-Canul,François Portet |
発行日 | 2023-09-19 13:19:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google