Introducing DictaLM — A Large Generative Language Model for Modern Hebrew

要約

現代ヘブライ語に合わせて調整された大規模言語モデルである DictaLM を紹介します。
7B パラメーターを誇るこのモデルは、主にヘブライ語中心のデータでトレーニングされています。
ヘブライ語での研究開発を促進する取り組みとして、私たちはクリエイティブ コモンズ ライセンスの下で基礎モデルと命令調整モデルの両方をリリースしています。
同時に、ラビ/歴史的ヘブライ語を対象とした別の基礎モデルである DictaLM-Rab を紹介します。
これらの基礎モデルは、指導、Q&A、感情分析など、ヘブライ語特有のさまざまなタスクを微調整するための理想的な出発点として機能します。
このリリースは準備段階であり、ヘブライ語 NLP コミュニティが実験できる初期のヘブライ語 LLM モデルを提供します。

要約(オリジナル)

We present DictaLM, a large-scale language model tailored for Modern Hebrew. Boasting 7B parameters, this model is predominantly trained on Hebrew-centric data. As a commitment to promoting research and development in the Hebrew language, we release both the foundation model and the instruct-tuned model under a Creative Commons license. Concurrently, we introduce DictaLM-Rab, another foundation model geared towards Rabbinic/Historical Hebrew. These foundation models serve as ideal starting points for fine-tuning various Hebrew-specific tasks, such as instruction, Q&A, sentiment analysis, and more. This release represents a preliminary step, offering an initial Hebrew LLM model for the Hebrew NLP community to experiment with.

arxiv情報

著者 Shaltiel Shmidman,Avi Shmidman,Amir David Nissan Cohen,Moshe Koppel
発行日 2023-09-25 22:42:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク