要約
低リソース言語(LRL)は、限られた言語リソースと標準的なデータセットでの過小評価により、自然言語処理に大きな課題を提示します。
大規模な言語モデル(LLM)とニューラルマシンの翻訳の最近の進歩により、高リソース言語の翻訳機能が大幅に改善されましたが、LRLのパフォーマンス格差は持続し、特にプライバシーに敏感でリソースに制約のあるシナリオに影響を与えます。
このペーパーでは、Flores-200ベンチマークを使用して200の言語で現在のLLMSを体系的に評価し、LRL翻訳機能における制限を実証します。
また、ニュース記事やバイリンガル辞書などの代替データソースを探り、大規模な訓練を受けた教師モデルからの知識の蒸留が、LRL翻訳タスクでの小さなLLMSのパフォーマンスを大幅に改善できる方法を示します。
たとえば、このアプローチは、LLAMA-3.2-3Bの0.36から0.89の検証セットのLLM-A-A-JudgeスコアでEN-> LBを増加させます。
さらに、さまざまな微調整構成を調べ、最適なデータスケール、トレーニング効率、および研究中のモデルの一般化能力の保存に関する実用的な洞察を提供します。
要約(オリジナル)
Low-Resource Languages (LRLs) present significant challenges in natural language processing due to their limited linguistic resources and underrepresentation in standard datasets. While recent advances in Large Language Models (LLMs) and Neural Machine Translation have substantially improved translation capabilities for high-resource languages, performance disparities persist for LRLs, particularly impacting privacy-sensitive and resource-constrained scenarios. This paper systematically evaluates current LLMs in 200 languages using the FLORES-200 benchmark and demonstrates their limitations in LRL translation capability. We also explore alternative data sources, including news articles and bilingual dictionaries, and demonstrate how knowledge distillation from large pre-trained teacher models can significantly improve the performance of small LLMs on LRL translation tasks. For example, this approach increases EN->LB with the LLM-as-a-Judge score on the validation set from 0.36 to 0.89 for Llama-3.2-3B. Furthermore, we examine different fine-tuning configurations, providing practical insights on optimal data scale, training efficiency, and the preservation of generalization capabilities of models under study.
arxiv情報
| 著者 | Yewei Song,Lujun Li,Cedric Lothritz,Saad Ezzini,Lama Sleem,Niccolo Gentile,Radu State,Tegawendé F. Bissyandé,Jacques Klein |
| 発行日 | 2025-06-05 17:55:07+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google