MUTANT: A Multi-sentential Code-mixed Hinglish Dataset

要約

多文の長いシーケンスのテキスト データは、自然言語の処理と生成に関するいくつかの興味深い研究の方向性を明らかにします。
英語やその他の単一言語用の高品質なロング シーケンス データセットがいくつか確認されていますが、Hinglish (ヒンディー語と英語のコード混合) などのコード混合言語用のリソースを構築するための大きな努力はありません。
この論文では、多言語記事から多文コード混合テキスト (MCT) を識別する新しいタスクを提案します。
ユース ケースとして、2 つの異なるデータ ソースからの多言語記事を活用し、この種では初めての多文コード混合 Hinglish データセット、つまり MUTANT を構築します。
トークン レベルの言語認識パイプラインを提案し、コード混合の程度を測定する既存のメトリックを多文フレームワークに拡張し、多言語記事で MCT を自動的に識別します。
MUTANT データセットは、識別された 85,000 の Hinglish MCT を含む 67,000 の記事で構成されています。
将来の研究を容易にするために、私たちは公開しています。

要約(オリジナル)

The multi-sentential long sequence textual data unfolds several interesting research directions pertaining to natural language processing and generation. Though we observe several high-quality long-sequence datasets for English and other monolingual languages, there is no significant effort in building such resources for code-mixed languages such as Hinglish (code-mixing of Hindi-English). In this paper, we propose a novel task of identifying multi-sentential code-mixed text (MCT) from multilingual articles. As a use case, we leverage multilingual articles from two different data sources and build a first-of-its-kind multi-sentential code-mixed Hinglish dataset i.e., MUTANT. We propose a token-level language-aware pipeline and extend the existing metrics measuring the degree of code-mixing to a multi-sentential framework and automatically identify MCT in the multilingual articles. The MUTANT dataset comprises 67k articles with 85k identified Hinglish MCTs. To facilitate future research, we make the publicly available.

arxiv情報

著者 Rahul Gupta,Vivek Srivastava,Mayank Singh
発行日 2023-02-23 04:04:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク