Sinhala-English Parallel Word Dictionary Dataset

要約

並列データセットは、あらゆる種類の多言語タスクを実行し評価するために不可欠である。しかし、言語ペアの一方が低資源言語である場合、コーパスのような既存のトップダウン並列データは、人間のアノテーションが少ないため、集計も品質も不十分である。したがって、低資源言語の場合、辞書データセットのような粒度の細かいペアを最初に開発するボトムアップの方向に進む方がより現実的である。そしてそれらは、教師あり多言語単語埋め込みアライメントなどの中間レベルのタスクに使用される。これらは後に、機械翻訳(MT)に使用される文や段落のテキスト・コーパスのアライメントのような、より高いレベルのタスクを導くことができる。低リソース言語の膨大なコーパスを作成し、アライメントするよりはアプローチしやすいとはいえ、大規模な研究主体からの無関心という同じ理由で、低リソース言語にはこのような細かいデータセットさえ不足しています。私たちは、低リソース言語であるシンハラ語について、フリーでオープンな辞書データセットが存在しないことを確認している。そこで本研究では、英語とシンハラ語に関連する多言語の自然言語処理(NLP)タスクに役立つ、3つの並列英語-シンハラ語辞書(En-Si-dict-large、En-Si-dict-filtered、En-Si-dict-FastText)を紹介する。本稿では、データセット作成パイプラインと、データセットの品質を検証するために実施したテストの実験結果について説明する。データセットと関連スクリプトはhttps://github.com/kasunw22/sinhala-para-dict。

要約(オリジナル)

Parallel datasets are vital for performing and evaluating any kind of multilingual task. However, in the cases where one of the considered language pairs is a low-resource language, the existing top-down parallel data such as corpora are lacking in both tally and quality due to the dearth of human annotation. Therefore, for low-resource languages, it is more feasible to move in the bottom-up direction where finer granular pairs such as dictionary datasets are developed first. They may then be used for mid-level tasks such as supervised multilingual word embedding alignment. These in turn can later guide higher-level tasks in the order of aligning sentence or paragraph text corpora used for Machine Translation (MT). Even though more approachable than generating and aligning a massive corpus for a low-resource language, for the same reason of apathy from larger research entities, even these finer granular data sets are lacking for some low-resource languages. We have observed that there is no free and open dictionary data set for the low-resource language, Sinhala. Thus, in this work, we introduce three parallel English-Sinhala word dictionaries (En-Si-dict-large, En-Si-dict-filtered, En-Si-dict-FastText) which help in multilingual Natural Language Processing (NLP) tasks related to English and Sinhala languages. In this paper, we explain the dataset creation pipeline as well as the experimental results of the tests we have carried out to verify the quality of the data sets. The data sets and the related scripts are available at https://github.com/kasunw22/sinhala-para-dict.

arxiv情報

著者 Kasun Wickramasinghe,Nisansa de Silva
発行日 2023-08-04 10:21:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク