KoCoNovel: Annotated Dataset of Character Coreference in Korean Novels

要約

この論文では、詳細な注釈ガイドラインを備えた、韓国の文学テキストから派生した新しい文字相互参照データセットである KoCoNovel を紹介します。
50 の近現代小説からの 178,000 のトークンで構成される KoCoNovel は、韓国最大の公開相互参照解決コーパスの 1 つであり、文学テキストに基づいた最初のコーパスです。
KoCoNovel は、文学的な相互参照分析の幅広いニーズに対応する 4 つの異なるバージョンを提供します。
これらのバージョンは、全知の著者または読者の視点をサポートし、複数のエンティティを個別または重複して管理できるように設計されており、それによって適用範囲が広がります。
KoCoNovel の特徴の 1 つは、全登場人物の言及の 24% が単一の普通名詞であり、所有標識や冠詞が欠如していることです。
この特徴は、個人名よりも社会的関係や親族関係を表す用語の使用を好む韓国の住所用語文化のニュアンスに特に影響を受けています。
BERT ベースの相互参照モデルを用いた実験では、文学テキスト内の文字相互参照タスクにおいて、大規模な非文学相互参照データセットと比較して、KoCoNovel による顕著なパフォーマンスの向上が観察されました。
このような発見は、KoCoNovel が韓国の文化と言語の力学の統合を通じて共参照解決モデルを大幅に強化できる可能性を強調しています。

要約(オリジナル)

In this paper, we present KoCoNovel, a novel character coreference dataset derived from Korean literary texts, complete with detailed annotation guidelines. Comprising 178K tokens from 50 modern and contemporary novels, KoCoNovel stands as one of the largest public coreference resolution corpora in Korean, and the first to be based on literary texts. KoCoNovel offers four distinct versions to accommodate a wide range of literary coreference analysis needs. These versions are designed to support perspectives of the omniscient author or readers, and to manage multiple entities as either separate or overlapping, thereby broadening its applicability. One of KoCoNovel’s distinctive features is that 24% of all character mentions are single common nouns, lacking possessive markers or articles. This feature is particularly influenced by the nuances of Korean address term culture, which favors the use of terms denoting social relationships and kinship over personal names. In experiments with a BERT-based coreference model, we observe notable performance enhancements with KoCoNovel in character coreference tasks within literary texts, compared to a larger non-literary coreference dataset. Such findings underscore KoCoNovel’s potential to significantly enhance coreference resolution models through the integration of Korean cultural and linguistic dynamics.

arxiv情報

著者 Kyuhee Kim,Surin Lee,Sangah Lee
発行日 2024-04-11 14:57:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク