Is LLM the Silver Bullet to Low-Resource Languages Machine Translation?

要約

低リソース言語(LRL)は、限られた言語リソースと標準的なデータセットでの過小評価により、自然言語処理に大きな課題を提示します。
大規模な言語モデル(LLMS)と神経機械翻訳(NMT)の最近の進歩は、高リソース言語の翻訳能力を大幅に改善していますが、LRLのパフォーマンス格差は持続し、特にプライバシーに敏感でリソースに制約のあるシナリオに影響を与えます。
このペーパーでは、Flores-200などのベンチマークを使用して、200の言語にわたる現在のLLMの制限を体系的に評価します。
また、ニュース記事やバイリンガル辞書を含む代替データソースを探求し、大規模な事前訓練モデルからの知識の蒸留がより小さなLRL翻訳を大幅に改善する方法を示します。
さらに、さまざまな微調整戦略を調査し、より小さなLLMのパフォーマンスギャップを著しく削減することを明らかにします。

要約(オリジナル)

Low-Resource Languages (LRLs) present significant challenges in natural language processing due to their limited linguistic resources and underrepresentation in standard datasets. While recent advancements in Large Language Models (LLMs) and Neural Machine Translation (NMT) have substantially improved translation capabilities for high-resource languages, performance disparities persist for LRLs, particularly impacting privacy-sensitive and resource-constrained scenarios. This paper systematically evaluates the limitations of current LLMs across 200 languages using benchmarks such as FLORES-200. We also explore alternative data sources, including news articles and bilingual dictionaries, and demonstrate how knowledge distillation from large pre-trained models can significantly improve smaller LRL translations. Additionally, we investigate various fine-tuning strategies, revealing that incremental enhancements markedly reduce performance gaps on smaller LLMs.

arxiv情報

著者 Yewei Song,Lujun Li,Cedric Lothritz,Saad Ezzini,Lama Sleem,Niccolo Gentile,Radu State,Tegawendé F. Bissyandé,Jacques Klein
発行日 2025-03-31 13:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク