Sinhala-English Word Embedding Alignment: Introducing Datasets and Benchmark for a Low Resource Language

要約

エンベディングは、その誕生以来、さまざまな種類の自然言語処理 (NLP) タスクにおいて、以前のタイプの表現に取って代わる主要な要素となっています。
多言語エンベディングは増加する多言語タスクに使用されていますが、並列トレーニング データが不足しているため、シンハラ語などの低リソース言語では単言語エンベディングに重点が置かれる傾向があります。
次に、前述の多言語タスクに関しては、たとえ同一のトレーニング プロセスにより埋め込み空間が同様の幾何学的配置を持っていたとしても、考慮されている言語の埋め込みが整列していないことを考えると、これらの単言語埋め込みを利用することは困難です。
これは埋め込み調整タスクによって解決されます。
この中でも、高リソース言語のペアが脚光を浴びている一方で、深刻な支援を必要としているシンハラ語などの低リソース言語は脇に追いやられているようです。
この論文では、利用可能な位置合わせ技術に基づいてシンハラ語と英語の単語の埋め込みスペースを位置合わせすることを試み、シンハラ語の埋め込み位置合わせのベンチマークを紹介します。
それに加えて、教師あり位置合わせを容易にするために、中間タスクとして、シンハラ語と英語の位置合わせデータセットも導入します。
これらのデータセットは、教師あり単語埋め込みアライメントのアンカー データセットとして機能します。
フランス語、ドイツ語、中国語などの高リソース言語に匹敵する結果は得られませんでしたが、私たちの研究は英語とシンハラ語の埋め込みをより専門的に調整するための基礎を築くと信じています。

要約(オリジナル)

Since their inception, embeddings have become a primary ingredient in many flavours of Natural Language Processing (NLP) tasks supplanting earlier types of representation. Even though multilingual embeddings have been used for the increasing number of multilingual tasks, due to the scarcity of parallel training data, low-resource languages such as Sinhala, tend to focus more on monolingual embeddings. Then when it comes to the aforementioned multi-lingual tasks, it is challenging to utilize these monolingual embeddings given that even if the embedding spaces have a similar geometric arrangement due to an identical training process, the embeddings of the languages considered are not aligned. This is solved by the embedding alignment task. Even in this, high-resource language pairs are in the limelight while low-resource languages such as Sinhala which is in dire need of help seem to have fallen by the wayside. In this paper, we try to align Sinhala and English word embedding spaces based on available alignment techniques and introduce a benchmark for Sinhala language embedding alignment. In addition to that, to facilitate the supervised alignment, as an intermediate task, we also introduce Sinhala-English alignment datasets. These datasets serve as our anchor datasets for supervised word embedding alignment. Even though we do not obtain results comparable to the high-resource languages such as French, German, or Chinese, we believe our work lays the groundwork for more specialized alignment between English and Sinhala embeddings.

arxiv情報

著者 Kasun Wickramasinghe,Nisansa de Silva
発行日 2023-11-17 10:14:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク