Low-Resourced Machine Translation for Senegalese Wolof Language

要約

タイトル – セネガルのウォロフ語に低資源の機械翻訳

要約 – 自然言語処理(NLP)研究は、最近の大きなブレークスルーにより、新しい基準を確立した大きな進歩を遂げていますが、これらの進歩は英語やフランス語などのリソース豊富な言語の一定のグループに主に恩恵がありました。リソースが弱い多くの他の言語、セネガルのウォロフ語を含むほとんどのアフリカ言語には残念ながら恩恵がありません。この作業では、123,000のウォロフ語/フランス語対訳文のウォロフ語に関する機械翻訳モデルの実験を、リカレントニューラルネットワーク(RNN)をベースにさまざまなデータ設定で行っています。実験条件が同じである場合、サブワードデータでトレーニングされたモデルとフランス語-英語の言語対でトレーニングされたモデルはフランス語-ウォロフの言語対でトレーニングされたモデルに比べてパフォーマンスが向上したことがわかりました。

– 自然言語処理(NLP)研究は、最近の大きなブレークスルーにより、新しい基準を確立した大きな進歩を遂げているが、これらの進歩は英語やフランス語などのリソース豊富な言語に主に恩恵があることが分かっている。
– この論文は、ウォロフ語のようなリソースが弱い言語にも同じ進歩をもたらすことができるかどうかを検討するため、ウォロフ語/フランス語の対訳文の研究を行っている。
– リカレントニューラルネットワーク(RNN)をベースにした機械翻訳モデルを使用し、サブワードデータでトレーニングされたモデルとフランス語-英語の言語対でトレーニングされたモデルはフランス語-ウォロフの言語対でトレーニングされたモデルに比べて良好なパフォーマンスを発揮した。
– ウォロフ語のようなリソースが弱い言語に対しても、NLPの進歩を活用するための戦略が示唆されている。

要約(オリジナル)

Natural Language Processing (NLP) research has made great advancements in recent years with major breakthroughs that have established new benchmarks. However, these advances have mainly benefited a certain group of languages commonly referred to as resource-rich such as English and French. Majority of other languages with weaker resources are then left behind which is the case for most African languages including Wolof. In this work, we present a parallel Wolof/French corpus of 123,000 sentences on which we conducted experiments on machine translation models based on Recurrent Neural Networks (RNN) in different data configurations. We noted performance gains with the models trained on subworded data as well as those trained on the French-English language pair compared to those trained on the French-Wolof pair under the same experimental conditions.

arxiv情報

著者 Derguene Mbaye,Moussa Diallo,Thierno Ibrahima Diop
発行日 2023-05-01 00:04:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク