要約
このペーパーでは、転送学習技術を活用し、低リソース言語に関連する課題に対処することにより、英語からテルグからテルグまでの翻訳モデルを構築するための新しいアプローチを提示します。
Bharat Parallel Corpus Collection(BPCC)をプライマリデータセットとして利用して、モデルには合成並列データを生成するための反復逆翻訳を組み込み、トレーニングデータセットを効果的に増強し、モデルの翻訳機能を強化します。
この研究は、データ増強、トレーニングパラメーターの最適化、および事前に訓練されたモデルの効果的な使用を通じて、モデルのパフォーマンスを改善するための包括的な戦略に焦点を当てています。
これらの方法論は、英語とテルグ語の両方で多様な文構造と言語的ニュアンスを処理できる堅牢な翻訳システムを作成することを目的としています。
この作業は、革新的なデータ処理手法の重要性と、低リソース言語のまばらなデータセットによってもたらされる制限を克服するための転送学習の可能性を強調しています。
この研究は機械翻訳の分野に貢献し、実際の文脈で英語とテルグ語のスピーカー間のコミュニケーションを改善しようとしています。
要約(オリジナル)
This paper presents a novel approach to constructing an English-to-Telugu translation model by leveraging transfer learning techniques and addressing the challenges associated with low-resource languages. Utilizing the Bharat Parallel Corpus Collection (BPCC) as the primary dataset, the model incorporates iterative backtranslation to generate synthetic parallel data, effectively augmenting the training dataset and enhancing the model’s translation capabilities. The research focuses on a comprehensive strategy for improving model performance through data augmentation, optimization of training parameters, and the effective use of pre-trained models. These methodologies aim to create a robust translation system that can handle diverse sentence structures and linguistic nuances in both English and Telugu. This work highlights the significance of innovative data handling techniques and the potential of transfer learning in overcoming limitations posed by sparse datasets in low-resource languages. The study contributes to the field of machine translation and seeks to improve communication between English and Telugu speakers in practical contexts.
arxiv情報
著者 | Abhiram Reddy Yanampally |
発行日 | 2025-04-08 11:09:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google