BenCoref: A Multi-Domain Dataset of Nominal Phrases and Pronominal Reference Annotations

要約

【タイトル】BenCoref:名詞句と代名詞の参照注釈のマルチドメインデータセット

【要約】
– コアファレンス解決は、自然言語処理において研究が進められている問題である。
– 英語や他のリソース豊富な言語で広く研究されている一方で、ベンガル語におけるコアファレンス解決の研究はほとんど進んでおらず、関連するデータセットが存在しないことが原因である。
– ベンガル語は、英語に比べて形態論的豊かさが大きいため、リソースが少ない言語である。
– 本記事では、4つの異なるドメインから収集されたベンガル語テキストのコアファレンス注釈からなる新しいデータセットであるBenCorefを紹介する。
– この比較的小さいデータセットは、48,569トークンの中に502個の言及クラスターを形成する5200個の言及の注釈を含んでいる。
– このデータセットの作成プロセスを説明し、BenCorefを使用してトレーニングされた複数のモデルの性能を報告する。
– 多様なドメインにまたがるコアファレンス現象の変化に関する私たちの研究が、ベンガル語の追加リソースの開発を促進することを期待している。
– さらに、英語からのゼロショット設定でのクロスリンガルなパフォーマンスが悪かったため、このタスクのためのより多くの言語特有のリソースが必要であることが示唆されている。

要約(オリジナル)

Coreference Resolution is a well studied problem in NLP. While widely studied for English and other resource-rich languages, research on coreference resolution in Bengali largely remains unexplored due to the absence of relevant datasets. Bengali, being a low-resource language, exhibits greater morphological richness compared to English. In this article, we introduce a new dataset, BenCoref, comprising coreference annotations for Bengali texts gathered from four distinct domains. This relatively small dataset contains 5200 mention annotations forming 502 mention clusters within 48,569 tokens. We describe the process of creating this dataset and report performance of multiple models trained using BenCoref. We anticipate that our work sheds some light on the variations in coreference phenomena across multiple domains in Bengali and encourages the development of additional resources for Bengali. Furthermore, we found poor crosslingual performance at zero-shot setting from English, highlighting the need for more language-specific resources for this task.

arxiv情報

著者 Shadman Rohan,Mojammel Hossain,Mohammad Mamun Or Rashid,Nabeel Mohammed
発行日 2023-04-07 15:08:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク