FRACAS: A FRench Annotated Corpus of Attribution relations in newS


この論文では、引用抽出と出典の帰属のために手動で注釈を付けたフランス語の 1676 件のニュースワイヤー テキストのコーパスを紹介します。
次に、注釈のガイドラインと注釈のプロセス、さらに最終的なコーパスに関するいくつかの統計と、引用タイプ (特に困難である直接、間接、および混合) 間の取得されたバランスについて詳しく説明します。
最後に、手動ラベル付けに取り組んだ 8 人のアノテーター間のアノテーター間合意について詳しく説明します。これは、このような困難な言語現象としてはかなり高額です。


Quotation extraction is a widely useful task both from a sociological and from a Natural Language Processing perspective. However, very little data is available to study this task in languages other than English. In this paper, we present a manually annotated corpus of 1676 newswire texts in French for quotation extraction and source attribution. We first describe the composition of our corpus and the choices that were made in selecting the data. We then detail the annotation guidelines and annotation process, as well as a few statistics about the final corpus and the obtained balance between quote types (direct, indirect and mixed, which are particularly challenging). We end by detailing our inter-annotator agreement between the 8 annotators who worked on manual labelling, which is substantially high for such a difficult linguistic phenomenon.


著者 Ange Richard,Laura Alonzo-Canul,François Portet
発行日 2023-09-19 13:19:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク