BenCoref: A Multi-Domain Dataset of Nominal Phrases and Pronominal Reference Annotations

要約

相互参照の解決は、NLP でよく研究されている問題です。
英語やその他のリソースが豊富な言語については広く研究されていますが、ベンガル語の共参照解決に関する研究は、関連するデータセットが存在しないため、ほとんど未調査のままです。
ベンガル語はリソースが少ない言語であるため、英語に比べて形態学的に豊かです。
この記事では、4 つの異なるドメインから収集されたベンガル語テキストの相互参照アノテーションで構成される新しいデータセット BenCoref を紹介します。
この比較的小さなデータセットには、48,569 個のトークン内で 502 個の言及クラスターを形成する 5,200 個の言及アノテーションが含まれています。
このデータセットを作成するプロセスについて説明し、BenCoref を使用してトレーニングされた複数のモデルのパフォーマンスを報告します。
私たちは、私たちの研究がベンガル語の複数の領域にわたる共参照現象の変化に光を当て、ベンガル語のための追加リソースの開発を促進することを期待しています。
さらに、英語からのゼロショット設定では言語をまたいだパフォーマンスが低いことがわかり、このタスクにはより言語固有のリソースが必要であることが浮き彫りになりました。

要約(オリジナル)

Coreference Resolution is a well studied problem in NLP. While widely studied for English and other resource-rich languages, research on coreference resolution in Bengali largely remains unexplored due to the absence of relevant datasets. Bengali, being a low-resource language, exhibits greater morphological richness compared to English. In this article, we introduce a new dataset, BenCoref, comprising coreference annotations for Bengali texts gathered from four distinct domains. This relatively small dataset contains 5200 mention annotations forming 502 mention clusters within 48,569 tokens. We describe the process of creating this dataset and report performance of multiple models trained using BenCoref. We anticipate that our work sheds some light on the variations in coreference phenomena across multiple domains in Bengali and encourages the development of additional resources for Bengali. Furthermore, we found poor crosslingual performance at zero-shot setting from English, highlighting the need for more language-specific resources for this task.

arxiv情報

著者 Shadman Rohan,Mojammel Hossain,Mohammad Mamun Or Rashid,Nabeel Mohammed
発行日 2023-05-30 13:42:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク