Conversations in Galician: a Large Language Model for an Underrepresented Language

要約

最近の大規模会話言語モデルの急増は、現在の情報化時代において、このタイプの AI テクノロジーへの広範なアクセスの経済的重要性を浮き彫りにしています。
それにもかかわらず、普及しているモデルは主に、一般的な言語で書かれた文書で構成されるコーパスでトレーニングされています。
低リソース言語用のこのような最先端ツールの不足は、現在の経済状況における言語の過小評価をさらに悪化させ、その結果、その言語の母語話者に影響を与えます。
このペーパーでは、ガリシア語の自然言語処理 (NLP) を強化するために設計された 2 つの新しいリソースを紹介します。
52,000 の説明とデモンストレーションで構成される、アルパカ データセットのガリシア語版を紹介します。
このデータセットは、提供された指示をより正確に遵守するように言語モデルを微調整することで言語モデルを強化するのに非常に貴重であることがわかります。
さらに、データセット ユーティリティのデモンストレーションとして、Alpaca 形式に従うことで、もともとモデルでサポートされていなかった言語であるガリシア語を理解して応答できるように LLaMA-7B を微調整しました。
この研究は、大規模言語モデルの開発にすべての言語コミュニティを確実に含めることを保証する重要な取り組みである、リソースが少ない環境に合わせて調整された多言語モデルの研究に貢献します。
この研究のもう 1 つの注目すべき側面は、トレーニング リソースが不足している場合に、密接に関連した言語 (この場合はポルトガル語) の知識が、一貫したテキストの生成にどのように役立つかを調査したことです。
ガリシア アルパカ データセットと Cabuxa-7B は両方とも、Huggingface Hub から一般にアクセスできます。また、この実験の再現を容易にし、過小評価されている言語のさらなる進歩を促進するために、ソース コードを利用できるようにしました。

要約(オリジナル)

The recent proliferation of Large Conversation Language Models has highlighted the economic significance of widespread access to this type of AI technologies in the current information age. Nevertheless, prevailing models have primarily been trained on corpora consisting of documents written in popular languages. The dearth of such cutting-edge tools for low-resource languages further exacerbates their underrepresentation in the current economic landscape, thereby impacting their native speakers. This paper introduces two novel resources designed to enhance Natural Language Processing (NLP) for the Galician language. We present a Galician adaptation of the Alpaca dataset, comprising 52,000 instructions and demonstrations. This dataset proves invaluable for enhancing language models by fine-tuning them to more accurately adhere to provided instructions. Additionally, as a demonstration of the dataset utility, we fine-tuned LLaMA-7B to comprehend and respond in Galician, a language not originally supported by the model, by following the Alpaca format. This work contributes to the research on multilingual models tailored for low-resource settings, a crucial endeavor in ensuring the inclusion of all linguistic communities in the development of Large Language Models. Another noteworthy aspect of this research is the exploration of how knowledge of a closely related language, in this case, Portuguese, can assist in generating coherent text when training resources are scarce. Both the Galician Alpaca dataset and Cabuxa-7B are publicly accessible on our Huggingface Hub, and we have made the source code available to facilitate replication of this experiment and encourage further advancements for underrepresented languages.

arxiv情報

著者 Eliseo Bao,Anxo Pérez,Javier Parapar
発行日 2023-11-07 08:52:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク