Overcoming Data Scarcity in Generative Language Modelling for Low-Resource Languages: A Systematic Review

要約

生成言語モデリングは、ChatGptやGoogle Geminiなどのサービスの出現により人気が急増しています。
これらのモデルは、生産性とコミュニケーションにおける変革の可能性を実証していますが、圧倒的に英語のような高リソース言語に対応しています。
これは、自然言語処理(NLP)における言語的不平等に対する懸念を増幅しています。
この論文では、低リソース言語(LRL)の生成言語モデリングのデータ不足に対処するための戦略に特に焦点を当てた最初の系統的レビューを紹介します。
54の研究から引き出して、生成タスク全体で、単一言語のデータ増強、逆翻訳、多言語トレーニング、迅速なエンジニアリングなど、技術的アプローチを特定、分類、評価します。
また、アーキテクチャの選択、言語家族の表現、評価方法の傾向も分析します。
私たちの調査結果は、トランスベースのモデルへの強い依存、LRLの小さなサブセットへの集中、および研究全体で一貫した評価の欠如を強調しています。
これらの方法をより広い範囲のLRLに拡張し、公平な生成言語システムを構築する際の公開課題の概要を説明するための推奨事項で結論付けています。
最終的に、このレビューは、研究者と開発者が過小評価された言語のための包括的なAIツールを構築することをサポートすることを目的としています。これは、LRLスピーカーに力を与えるための必要なステップ、および大規模な言語技術によってますます形作られる世界の言語の多様性を維持するための必要なステップです。

要約(オリジナル)

Generative language modelling has surged in popularity with the emergence of services such as ChatGPT and Google Gemini. While these models have demonstrated transformative potential in productivity and communication, they overwhelmingly cater to high-resource languages like English. This has amplified concerns over linguistic inequality in natural language processing (NLP). This paper presents the first systematic review focused specifically on strategies to address data scarcity in generative language modelling for low-resource languages (LRL). Drawing from 54 studies, we identify, categorise and evaluate technical approaches, including monolingual data augmentation, back-translation, multilingual training, and prompt engineering, across generative tasks. We also analyse trends in architecture choices, language family representation, and evaluation methods. Our findings highlight a strong reliance on transformer-based models, a concentration on a small subset of LRLs, and a lack of consistent evaluation across studies. We conclude with recommendations for extending these methods to a wider range of LRLs and outline open challenges in building equitable generative language systems. Ultimately, this review aims to support researchers and developers in building inclusive AI tools for underrepresented languages, a necessary step toward empowering LRL speakers and the preservation of linguistic diversity in a world increasingly shaped by large-scale language technologies.

arxiv情報

著者 Josh McGiff,Nikola S. Nikolov
発行日 2025-05-07 16:04:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク