要約
特定の言語のペアは、サイズが大きく、ドメインが多様な平行なコーパスの欠如に悩まされています。
これが克服される方法の1つは、ピボット言語を使用することです。
この論文では、ヒンディー語をピボット言語として使用して、ネパールを英語に翻訳します。
ヒンディー語をピボットの良い候補者にしている理由について説明します。
ピボット言語を使用する方法について説明し、ネパールを英語に翻訳するために、譲渡方法(完全に監視された)と逆翻訳(半監視)(半監視)の2つのアプローチを使用します。
前者を使用して、14.2のDevTestセットSacrebleuスコアを達成することができます。これにより、(Guzman et al。、2019)が報告したベースライン完全な監視スコアが6.6ポイント増加します。
私たちは15.1の半監視されたベースラインスコアをわずかに下回っていますが、このパフォーマンスの低いものを引き起こした可能性のあるものについて説明し、将来の仕事の範囲を示唆しています。
要約(オリジナル)
Certain pairs of languages suffer from lack of a parallel corpus which is large in size and diverse in domain. One of the ways this is overcome is via use of a pivot language. In this paper we use Hindi as a pivot language to translate Nepali into English. We describe what makes Hindi a good candidate for the pivot. We discuss ways in which a pivot language can be used, and use two such approaches – the Transfer Method (fully supervised) and Backtranslation (semi-supervised) – to translate Nepali into English. Using the former, we are able to achieve a devtest Set SacreBLEU score of 14.2, which improves the baseline fully supervised score reported by (Guzman et al., 2019) by 6.6 points. While we are slightly below the semi-supervised baseline score of 15.1, we discuss what may have caused this under-performance, and suggest scope for future work.
arxiv情報
著者 | Abhimanyu Talwar,Julien Laasri |
発行日 | 2025-05-21 13:30:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google