Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language

要約

複数の言語で構成される先住民族の言語グループであるサーミは、利用可能なデータと言語の複雑さに合わせて設計された洗練された言語モデルが限られているため、デジタル疎外に直面しています。
この取り組みは、サーミ語の技術的参加を増やすことに焦点を当てています。
私たちは、超低リソース (ULR) 言語の言語モデリングの問題に ML コミュニティの注目を集めます。
ULR 言語は、利用可能なテキスト リソースの量が非常に少なく、話者の数も非常に少ない言語です。
ULRL は ChatGPT のような主流の大規模言語モデル (LLM) でもサポートされていないため、人工トレーニング データを収集することはさらに困難になります。
主流の AI 基礎モデル開発では、このカテゴリの言語はあまり重視されていません。
一般に、これらの言語の話者は非常に少ないため、見つけるのが困難です。
ただし、LLM の包括性と具体的な能力と影響力を促進するには、これらの ULR 言語の基礎モデルを開発することが重要です。
この目的のために、Web から利用可能な S\’ami 言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
ULR 言語 (S\’ami) を使用した最新の LLM モデルの動作を研究するために、主に $\sim$ 70 億程度のパラメーターでさまざまな種類の LLM を実験してきました。
また、ULRL に対する多言語 LLM トレーニングの効果も調査しました。
私たちは、逐次的な多言語トレーニング シナリオにおけるデコーダのみのモデルは、共同多言語トレーニングよりもパフォーマンスが良いのに対し、セマンティックの重複が多い多言語トレーニングは、一般に、最初からトレーニングするよりもパフォーマンスが良いことを発見しました。これは、S\’ami に関する最初の研究です。
自然言語処理 (NLP) の分野における最新の開発を使用する非統計的言語モデルを適応させるための言語。

要約(オリジナル)

S\’ami, an indigenous language group comprising multiple languages, faces digital marginalization due to the limited availability of data and sophisticated language models designed for its linguistic intricacies. This work focuses on increasing technological participation for the S\’ami language. We draw the attention of the ML community towards the language modeling problem of Ultra Low Resource (ULR) languages. ULR languages are those for which the amount of available textual resources is very low, and the speaker count for them is also very low. ULRLs are also not supported by mainstream Large Language Models (LLMs) like ChatGPT, due to which gathering artificial training data for them becomes even more challenging. Mainstream AI foundational model development has given less attention to this category of languages. Generally, these languages have very few speakers, making it hard to find them. However, it is important to develop foundational models for these ULR languages to promote inclusion and the tangible abilities and impact of LLMs. To this end, we have compiled the available S\’ami language resources from the web to create a clean dataset for training language models. In order to study the behavior of modern LLM models with ULR languages (S\’ami), we have experimented with different kinds of LLMs, mainly at the order of $\sim$ seven billion parameters. We have also explored the effect of multilingual LLM training for ULRLs. We found that the decoder-only models under a sequential multilingual training scenario perform better than joint multilingual training, whereas multilingual training with high semantic overlap, in general, performs better than training from scratch.This is the first study on the S\’ami language for adapting non-statistical language models that use the latest developments in the field of natural language processing (NLP).

arxiv情報

著者 Ronny Paul,Himanshu Buckchash,Shantipriya Parida,Dilip K. Prasad
発行日 2024-05-09 13:54:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク