要約
多言語の大規模言語モデルの出現により、アゼルバイジャン語における言語理解および言語生成システムの開発が可能になりました。
ただし、実稼働グレードのシステムのほとんどは、GPT-4 などのクラウド ソリューションに依存しています。
アゼルバイジャン向けにオープン基盤モデルを開発する試みがいくつかありましたが、体系的なベンチマークが不足しているため、これらの成果は一般的な使用には至っていません。
この文書には、アゼルバイジャン向けのオープンソース基盤モデルを促進するいくつかの一連の作業が含まれています。
我々は、(1) アゼルバイジャン語の大規模なテキスト コーパス、(2) このデータセットでトレーニングされたエンコーダ専用言語モデルのファミリー、(3) これらのモデルを評価するためのラベル付きデータセット、(4) すべての主要なオープン言語モデルをカバーする広範な評価を紹介します。
アゼルバイジャン語をサポートするソース モデル。
要約(オリジナル)
The emergence of multilingual large language models has enabled the development of language understanding and generation systems in Azerbaijani. However, most of the production-grade systems rely on cloud solutions, such as GPT-4. While there have been several attempts to develop open foundation models for Azerbaijani, these works have not found their way into common use due to a lack of systemic benchmarking. This paper encompasses several lines of work that promote open-source foundation models for Azerbaijani. We introduce (1) a large text corpus for Azerbaijani, (2) a family of encoder-only language models trained on this dataset, (3) labeled datasets for evaluating these models, and (4) extensive evaluation that covers all major open-source models with Azerbaijani support.
arxiv情報
著者 | Jafar Isbarov,Kavsar Huseynova,Elvin Mammadov,Mammad Hajili |
発行日 | 2024-07-02 15:05:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google