要約
この作品は、ベトナムの2つの民族グループを文化的に橋渡しするために、バナリックとベトナムの翻訳を達成するための旅を探ります。
しかし、バナリックからベトナム人に翻訳することもいくつかの困難に遭遇します。
最も顕著な課題は、トレーニングのデータ収集プロセスを妨げる語彙、文法、対話パターン、バイリンガルコーパスなど、利用可能な元のバナリックリソースソース言語の欠如です。
これに対処するために、シーケンスからシーケンス前のトレーニング言語モデルを使用して転送学習アプローチを活用します。
まず、事前に訓練されたベトナム語モデルを活用して、この言語の特性をキャプチャします。
特に、機械翻訳の目的をさらに提供するために、BERTのようなエンコーダーのみやGPTのようなデコーダーのみではなく、シーケンスからシーケンスモデルを目指します。
2つの言語間の重要な類似性を活用して、ベトナムのバイリンガルテキストの現在限られたバイリンガルリソースでモデルをトレーニングし続け、言語モデルから機械翻訳への転送学習を実行します。
したがって、このアプローチは、2つの言語間の不均衡なリソースの問題を処理するのに役立ち、同時にトレーニングと計算プロセスを最適化します。
さらに、データの増強を使用して追加のリソースを生成するデータセットも強化し、翻訳をより正確に支援するためのいくつかのヒューリスティックな方法を定義しました。
私たちのアプローチは、言語の拡大と保存に貢献し、2人の民族の間の相互理解を促進するために、バナリック – ベトナムの翻訳モデルに非常に効果的であることが検証されています。
要約(オリジナル)
This work explores the journey towards achieving Bahnaric-Vietnamese translation for the sake of culturally bridging the two ethnic groups in Vietnam. However, translating from Bahnaric to Vietnamese also encounters some difficulties. The most prominent challenge is the lack of available original Bahnaric resources source language, including vocabulary, grammar, dialogue patterns and bilingual corpus, which hinders the data collection process for training. To address this, we leverage a transfer learning approach using sequence-to-sequence pre-training language model. First of all, we leverage a pre-trained Vietnamese language model to capture the characteristics of this language. Especially, to further serve the purpose of machine translation, we aim for a sequence-to-sequence model, not encoder-only like BERT or decoder-only like GPT. Taking advantage of significant similarity between the two languages, we continue training the model with the currently limited bilingual resources of Vietnamese-Bahnaric text to perform the transfer learning from language model to machine translation. Thus, this approach can help to handle the problem of imbalanced resources between two languages, while also optimizing the training and computational processes. Additionally, we also enhanced the datasets using data augmentation to generate additional resources and defined some heuristic methods to help the translation more precise. Our approach has been validated to be highly effective for the Bahnaric-Vietnamese translation model, contributing to the expansion and preservation of languages, and facilitating better mutual understanding between the two ethnic people.
arxiv情報
著者 | Phan Tran Minh Dat,Vo Hoang Nhat Khang,Quan Thanh Tho |
発行日 | 2025-05-16 16:33:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google