Mergen: The First Manchu-Korean Machine Translation Model Trained on Augmented Data

要約

満州語は、中国東北部の歴史的な満州地域にルーツを持つ言語ですが、話者がほとんど残っていないため、現在、絶滅の危機に瀕しています。
満州語を保護する取り組みとして、満州語-韓国語機械翻訳 (MT) モデルへの史上初の試みである Mergen を紹介します。
このモデルを開発するために、私たちは満文老堂(歴史書)や満州語辞書などの貴重なリソースを利用します。
満州語と韓国語の対訳データセットが不足しているため、単言語テキストと対訳テキストの両方でトレーニングされた GloVe 埋め込みに基づいた単語置換を採用してデータを拡張しました。
私たちのアプローチは、エンコーダー/デコーダーのニューラル機械翻訳モデルを中心に構築されており、双方向のゲート付きリカレント ユニット (GRU) レイヤーが組み込まれています。
この実験では有望な結果が得られ、満州語から韓国語への翻訳が大幅に向上し、BLEU スコアが 20 ~ 30 ポイント増加したことがわかりました。

要約(オリジナル)

The Manchu language, with its roots in the historical Manchurian region of Northeast China, is now facing a critical threat of extinction, as there are very few speakers left. In our efforts to safeguard the Manchu language, we introduce Mergen, the first-ever attempt at a Manchu-Korean Machine Translation (MT) model. To develop this model, we utilize valuable resources such as the Manwen Laodang(a historical book) and a Manchu-Korean dictionary. Due to the scarcity of a Manchu-Korean parallel dataset, we expand our data by employing word replacement guided by GloVe embeddings, trained on both monolingual and parallel texts. Our approach is built around an encoder-decoder neural machine translation model, incorporating a bi-directional Gated Recurrent Unit (GRU) layer. The experiments have yielded promising results, showcasing a significant enhancement in Manchu-Korean translation, with a remarkable 20-30 point increase in the BLEU score.

arxiv情報

著者 Jean Seo,Sungjoo Byun,Minha Kang,Sangah Lee
発行日 2024-01-12 14:18:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク