GECKO: Generative Language Model for English, Code and Korean

要約

韓国語と英語およびプログラミング言語に最適化されたバイリンガル大規模言語モデル (LLM) である GECKO を紹介します。
GECKO は、LLaMA アーキテクチャを採用した、バランスのとれた高品質の韓国語と英語のコーパスで事前トレーニングされています。
このレポートでは、コーパスのより良いデータ パイプラインを構築し、モデルをトレーニングするためのいくつかの取り組みの経験を共有します。
GECKO は、語彙のサイズが小さいにもかかわらず、韓国語と英語の両方のトークン生成において優れた効率を示します。
韓国語、英語、コードに関する代表的なベンチマークでパフォーマンスを測定しました。英語中心の LLM と比較してトレーニング済みトークンの数が少ないにもかかわらず、KMMLU (韓国語 MMLU) では優れたパフォーマンスを示し、英語とコードでは控えめなパフォーマンスを示しました。

GECKO は、寛容なライセンスの下でオープンソース コミュニティに利用できます。
私たちの研究が、韓国の LLM 研究に研究ベースラインと実践的な洞察を提供することを願っています。
モデルは https://huggingface.co/kifai/GECKO-7B で見つけることができます。

要約(オリジナル)

We introduce GECKO, a bilingual large language model (LLM) optimized for Korean and English, along with programming languages. GECKO is pretrained on the balanced, high-quality corpus of Korean and English employing LLaMA architecture. In this report, we share the experiences of several efforts to build a better data pipeline for the corpus and to train our model. GECKO shows great efficiency in token generations for both Korean and English, despite its small size of vocabulary. We measure the performance on the representative benchmarks in terms of Korean, English and Code, and it exhibits great performance on KMMLU (Korean MMLU) and modest performance in English and Code, even with its smaller number of trained tokens compared to English-focused LLMs. GECKO is available to the open-source community under a permissive license. We hope our work offers a research baseline and practical insights for Korean LLM research. The model can be found at: https://huggingface.co/kifai/GECKO-7B

arxiv情報

著者 Sungwoo Oh,Donggyu Kim
発行日 2024-05-24 15:30:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク