Sentiment Analysis Using Aligned Word Embeddings for Uralic Languages

要約

この論文では、単語の埋め込みを多数派言語から 4 つの少数言語 (エルジャ語、モクシャ語、ウドムルト語、コミズィリアン語) に翻訳するアプローチを紹介します。
さらに、これらの単語埋め込みを調整し、感情分析を行うために英語データでトレーニングされ、調整された単語埋め込みを通じて絶滅危惧言語データに適用される新しいニューラル ネットワーク モデルを提示します。
モデルをテストするために、絶滅の危機に瀕している 4 つの言語とフィンランド語の小さな感情分析コーパスに注釈を付けました。
私たちの方法は、絶滅危惧言語ごとに少なくとも 56\% の精度に達しました。
モデルと感情コーパスはこの論文とともにリリースされます。
私たちの研究によると、最先端のニューラル モデルは、絶滅危惧言語と多数派言語の間の辞書を必要とするだけで、絶滅危惧言語でも使用できることがわかっています。

要約(オリジナル)

In this paper, we present an approach for translating word embeddings from a majority language into 4 minority languages: Erzya, Moksha, Udmurt and Komi-Zyrian. Furthermore, we align these word embeddings and present a novel neural network model that is trained on English data to conduct sentiment analysis and then applied on endangered language data through the aligned word embeddings. To test our model, we annotated a small sentiment analysis corpus for the 4 endangered languages and Finnish. Our method reached at least 56\% accuracy for each endangered language. The models and the sentiment corpus will be released together with this paper. Our research shows that state-of-the-art neural models can be used with endangered languages with the only requirement being a dictionary between the endangered language and a majority language.

arxiv情報

著者 Khalid Alnajjar,Mika Hämäläinen,Jack Rueter
発行日 2023-05-24 17:40:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク