Vacaspati: A Diverse Corpus of Bangla Literature

要約

バングラ語 (またはベンガル語) は世界で 5 番目に話されている言語です。
しかし、バングラ語の最先端の NLP は、見出語化や POS タグ付けなどの単純なタスクでも遅れています。これは、多様で質の高いコーパスが不足していることが部分的に原因です。
このニーズを軽減するために、私たちはバングラ文学の多様なコーパスである Vacaspati を構築します。
文学作品はさまざまな Web サイトから収集されています。
著作権侵害や制限なく公開されている作品のみが収集されます。
私たちは、出版された文学は、特定の文学パターンのみに従う傾向があり、言語の多様性を逃す傾向にある新聞、ブログ、ソーシャル メディアの投稿よりも、言語の特徴をはるかによく捉えていると信じています。
私たちのコーパス Vacaspati は、構成の種類、トピック、作者、時間、空間など、さまざまな側面から変化しています。これには、1,100 万を超える文と 1 億 1,500 万の単語が含まれています。
また、Vacspati の FastText を使用して単語埋め込みモデル Vac-FT を構築し、コーパスを使用して Electra モデル Vac-BERT をトレーニングしました。
Vac-BERT は、他の最先端の変圧器モデルと比較してパラメータがはるかに少なく、必要なリソースもほんの一部でありながら、さまざまなダウンストリーム タスクでより優れた、または同等のパフォーマンスを発揮します。
複数のダウンストリーム タスクにおいて、Vac-FT は他の FastText ベースのモデルよりも優れたパフォーマンスを発揮します。
また、他のコーパスから構築された同様のモデルがそれほど効果的ではないことを示すことにより、コーパスとしての Vacaspati の有効性を実証します。
モデルは https://bangla.iitk.ac.in/ で入手できます。

要約(オリジナル)

Bangla (or Bengali) is the fifth most spoken language globally; yet, the state-of-the-art NLP in Bangla is lagging for even simple tasks such as lemmatization, POS tagging, etc. This is partly due to lack of a varied quality corpus. To alleviate this need, we build Vacaspati, a diverse corpus of Bangla literature. The literary works are collected from various websites; only those works that are publicly available without copyright violations or restrictions are collected. We believe that published literature captures the features of a language much better than newspapers, blogs or social media posts which tend to follow only a certain literary pattern and, therefore, miss out on language variety. Our corpus Vacaspati is varied from multiple aspects, including type of composition, topic, author, time, space, etc. It contains more than 11 million sentences and 115 million words. We also built a word embedding model, Vac-FT, using FastText from Vacaspati as well as trained an Electra model, Vac-BERT, using the corpus. Vac-BERT has far fewer parameters and requires only a fraction of resources compared to other state-of-the-art transformer models and yet performs either better or similar on various downstream tasks. On multiple downstream tasks, Vac-FT outperforms other FastText-based models. We also demonstrate the efficacy of Vacaspati as a corpus by showing that similar models built from other corpora are not as effective. The models are available at https://bangla.iitk.ac.in/.

arxiv情報

著者 Pramit Bhattacharyya,Joydeep Mondal,Subhadip Maji,Arnab Bhattacharya
発行日 2023-07-11 07:32:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク