要約
機械翻訳(MT)の重要な課題の一つは、大量のデータ、主に並列文整列コーパスが不足していることである。資源が豊富な言語ほど評価が厳密であれば、ニューラル機械翻訳(NMT)も統計的機械翻訳(SMT)も、このような大量のデータで良い結果を出すことができます。しかし、特にNMTとSMTにおいて、低資源言語のMT出力の品質を向上させることは困難である。このような課題を解決するために、我々は、特に関連する言語について、文の類似度スコアを用いて、5-gram KenLM言語モデルとKneser-neyスムージング技術により、ドメイン内データをドメイン外コーパスからフィルタリングし、MTの翻訳品質を高めるという新しいアプローチを提示する。さらに、マルチドメイン、ファインチューニング、反復的逆翻訳などの他のドメイン適応技術を採用し、ヒンディー語とネパール語のペアで、NMTとSMTの新しいアプローチを比較します。我々のアプローチは、マルチドメインアプローチで〜2BLEUポイント、NMTのファインチューニングで〜3BLEUポイント、反復的逆翻訳アプローチで〜2BLEUポイントの増加に成功した。
要約(オリジナル)
One of the significant challenges of Machine Translation (MT) is the scarcity of large amounts of data, mainly parallel sentence aligned corpora. If the evaluation is as rigorous as resource-rich languages, both Neural Machine Translation (NMT) and Statistical Machine Translation (SMT) can produce good results with such large amounts of data. However, it is challenging to improve the quality of MT output for low resource languages, especially in NMT and SMT. In order to tackle the challenges faced by MT, we present a novel approach of using a scaled similarity score of sentences, especially for related languages based on a 5-gram KenLM language model with Kneser-ney smoothing technique for filtering in-domain data from out-of-domain corpora that boost the translation quality of MT. Furthermore, we employ other domain adaptation techniques such as multi-domain, fine-tuning and iterative back-translation approach to compare our novel approach on the Hindi-Nepali language pair for NMT and SMT. Our approach succeeds in increasing ~2 BLEU point on multi-domain approach, ~3 BLEU point on fine-tuning for NMT and ~2 BLEU point on iterative back-translation approach.
arxiv情報
著者 | Amit Kumar,Rupjyoti Baruah,Ajay Pratap,Mayank Swarnkar,Anil Kumar Singh |
発行日 | 2023-03-03 09:07:30+00:00 |
arxivサイト | arxiv_id(pdf) |