Text Generation Models for Luxembourgish with Limited Data: A Balanced Multilingual Strategy


ルクセンブルク語は活発な発展にもかかわらず、デジタル データ不足に直面しており、ルクセンブルクの多言語環境によってさらに悪化しています。
我々は、T5 アーキテクチャに基づいた新しいテキスト生成モデルを提案します。これは、限られたルクセンブルクのデータと、サイズとタイプの点で同量のドイツとフランスのデータを組み合わせたものです。
評価には、ルクセンブルク語初のテキスト生成ベンチマークである LuxGen を導入します。


This paper addresses the challenges in developing language models for less-represented languages, with a focus on Luxembourgish. Despite its active development, Luxembourgish faces a digital data scarcity, exacerbated by Luxembourg’s multilingual context. We propose a novel text generation model based on the T5 architecture, combining limited Luxembourgish data with equal amounts, in terms of size and type, of German and French data. We hypothesise that a model trained on Luxembourgish, German, and French will improve the model’s cross-lingual transfer learning capabilities and outperform monolingual and large multilingual models. To verify this, the study at hand explores whether multilingual or monolingual training is more beneficial for Luxembourgish language generation. For the evaluation, we introduce LuxGen, a text generation benchmark that is the first of its kind for Luxembourgish.


著者 Alistair Plum,Tharindu Ranasinghe,Christoph Purschke
発行日 2024-12-20 09:43:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク