Text Generation Models for Luxembourgish with Limited Data: A Balanced Multilingual Strategy

要約

この論文では、ルクセンブルク語に焦点を当て、あまり代表されていない言語の言語モデルを開発する際の課題について取り上げます。
ルクセンブルク語は活発な発展にもかかわらず、デジタル データ不足に直面しており、ルクセンブルクの多言語環境によってさらに悪化しています。
我々は、T5 アーキテクチャに基づいた新しいテキスト生成モデルを提案します。これは、限られたルクセンブルクのデータと、サイズとタイプの点で同量のドイツとフランスのデータを組み合わせたものです。
ルクセンブルク語、ドイツ語、フランス語でトレーニングされたモデルは、モデルの言語間転移学習機能が向上し、単言語モデルや大規模な多言語モデルよりも優れたパフォーマンスを発揮すると仮説を立てています。
これを検証するために、今回の研究では、ルクセンブルク語の言語生成にとって、多言語訓練と単言語訓練のどちらがより有益であるかを調査しています。
評価には、ルクセンブルク語初のテキスト生成ベンチマークである LuxGen を導入します。

要約(オリジナル)

This paper addresses the challenges in developing language models for less-represented languages, with a focus on Luxembourgish. Despite its active development, Luxembourgish faces a digital data scarcity, exacerbated by Luxembourg’s multilingual context. We propose a novel text generation model based on the T5 architecture, combining limited Luxembourgish data with equal amounts, in terms of size and type, of German and French data. We hypothesise that a model trained on Luxembourgish, German, and French will improve the model’s cross-lingual transfer learning capabilities and outperform monolingual and large multilingual models. To verify this, the study at hand explores whether multilingual or monolingual training is more beneficial for Luxembourgish language generation. For the evaluation, we introduce LuxGen, a text generation benchmark that is the first of its kind for Luxembourgish.

arxiv情報

著者 Alistair Plum,Tharindu Ranasinghe,Christoph Purschke
発行日 2024-12-20 09:43:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク