A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations

要約

リソースの少ない言語ペアでの機械翻訳は、並列コーパスと言語リソースが不足しているため、重大な課題に直面しています。
この研究は、既存のデータセットにノイズが著しく多く、機械翻訳モデルのパフォーマンスを妨げている英語とマラーティー語の言語ペアのケースに焦点を当てています。
データ品質問題の影響を軽減するために、言語を超えた文表現に基づいたデータ フィルタリング アプローチを提案します。
私たちの方法論では、多言語 SBERT モデルを活用して、トレーニング データ内で問題のある翻訳を除外します。
具体的には、IndicSBERT 類似性モデルを使用して、元の文と翻訳された文の間の意味上の同等性を評価し、大幅な逸脱のあるインスタンスを破棄しながら、言語的に正しい翻訳を保持できるようにします。
結果は、IndicSBERT によるベースラインのポストフィルタリングと比較して、翻訳品質が大幅に向上していることを示しています。
これは、リソースが限られている機械翻訳シナリオにおいて、言語をまたがる文表現がどのようにエラーを削減できるかを示しています。
この研究は、多言語文 BERT モデルを翻訳パイプラインに統合することにより、低リソース環境における機械翻訳技術の進歩に貢献します。
提案された方法は、英語とマラーティー語の言語ペアにおける課題に対処するだけでなく、他の低リソース言語の翻訳タスクにおける翻訳品質を向上させるための貴重なフレームワークも提供します。

要約(オリジナル)

Machine translation in low-resource language pairs faces significant challenges due to the scarcity of parallel corpora and linguistic resources. This study focuses on the case of English-Marathi language pairs, where existing datasets are notably noisy, impeding the performance of machine translation models. To mitigate the impact of data quality issues, we propose a data filtering approach based on cross-lingual sentence representations. Our methodology leverages a multilingual SBERT model to filter out problematic translations in the training data. Specifically, we employ an IndicSBERT similarity model to assess the semantic equivalence between original and translated sentences, allowing us to retain linguistically correct translations while discarding instances with substantial deviations. The results demonstrate a significant improvement in translation quality over the baseline post-filtering with IndicSBERT. This illustrates how cross-lingual sentence representations can reduce errors in machine translation scenarios with limited resources. By integrating multilingual sentence BERT models into the translation pipeline, this research contributes to advancing machine translation techniques in low-resource environments. The proposed method not only addresses the challenges in English-Marathi language pairs but also provides a valuable framework for enhancing translation quality in other low-resource language translation tasks.

arxiv情報

著者 Nidhi Kowtal,Tejas Deshpande,Raviraj Joshi
発行日 2024-09-04 13:49:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク