Replicable Benchmarking of Neural Machine Translation (NMT) on Low-Resource Local Languages in Indonesia

要約

インドネシアにおけるリソースの少ない現地言語のニューラル機械翻訳 (NMT) は、代表的なベンチマークの必要性や利用可能なデータの制限など、重大な課題に直面しています。
この研究では、インドネシアのリソースの少ない 4 つの現地言語 (ジャワ語、スンダ語、ミナンカバウ語、バリ語) のトレーニング NMT システムを包括的に分析することで、これらの課題に対処しています。
私たちの研究には、さまざまなトレーニング アプローチ、パラダイム、データ サイズ、および合成低リソース言語の並列データ生成に大規模な言語モデルを使用するための予備研究が含まれています。
リソースの少ない言語翻訳のための実践的な戦略に関する具体的な傾向と洞察を明らかにします。
私たちの調査では、限られた計算リソースとテキスト データにもかかわらず、いくつかの NMT システムがゼロショット gpt-3.5-turbo の翻訳品質に匹敵する競争力のあるパフォーマンスを達成していることが実証されています。
これらの発見は、低リソース言語の NMT を大幅に進歩させ、同様の状況にある研究者に貴重な指針を提供します。

要約(オリジナル)

Neural machine translation (NMT) for low-resource local languages in Indonesia faces significant challenges, including the need for a representative benchmark and limited data availability. This work addresses these challenges by comprehensively analyzing training NMT systems for four low-resource local languages in Indonesia: Javanese, Sundanese, Minangkabau, and Balinese. Our study encompasses various training approaches, paradigms, data sizes, and a preliminary study into using large language models for synthetic low-resource languages parallel data generation. We reveal specific trends and insights into practical strategies for low-resource language translation. Our research demonstrates that despite limited computational resources and textual data, several of our NMT systems achieve competitive performances, rivaling the translation quality of zero-shot gpt-3.5-turbo. These findings significantly advance NMT for low-resource languages, offering valuable guidance for researchers in similar contexts.

arxiv情報

著者 Lucky Susanto,Ryandito Diandaru,Adila Krisnadhi,Ayu Purwarianti,Derry Wijaya
発行日 2023-11-02 05:27:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク