Kanana: Compute-efficient Bilingual Language Models

要約

韓国語でのパフォーマンスを超え、英語での競争力のあるパフォーマンスを示す一連のバイリンガル言語モデルであるKananaを紹介します。
カナナの計算コストは​​、同様のサイズの最先端モデルの計算コストよりも大幅に低いです。
このレポートでは、高品質のデータフィルタリング、段階的なトレーニング、深さのアップスケール、剪定と蒸留など、計算効率が高いが競争力のあるモデルを実現するために、事前トレーニング中に採用された手法の詳細を詳述しています。
さらに、このレポートは、カナナモデルのトレーニング後に利用された方法論の概要を説明し、ユーザーとのシームレスな相互作用の能力を高めることを目的とした監視された微調整と好みの最適化を網羅しています。
最後に、このレポートは、埋め込み、検索拡張生成、関数呼び出しなど、特定のシナリオへの言語モデルの適応に使用されるもっともらしいアプローチについて詳しく説明しています。
Kananaモデルシリーズは、韓国語モデルに関する研究を促進するために公開されている2.1bモデル(基本、指示、埋め込み)を備えた2.1bから32.5bのパラメーターに及びます。

要約(オリジナル)

We introduce Kanana, a series of bilingual language models that demonstrate exceeding performance in Korean and competitive performance in English. The computational cost of Kanana is significantly lower than that of state-of-the-art models of similar size. The report details the techniques employed during pre-training to achieve compute-efficient yet competitive models, including high quality data filtering, staged pre-training, depth up-scaling, and pruning and distillation. Furthermore, the report outlines the methodologies utilized during the post-training of the Kanana models, encompassing supervised fine-tuning and preference optimization, aimed at enhancing their capability for seamless interaction with users. Lastly, the report elaborates on plausible approaches used for language model adaptation to specific scenarios, such as embedding, retrieval augmented generation, and function calling. The Kanana model series spans from 2.1B to 32.5B parameters with 2.1B models (base, instruct, embedding) publicly released to promote research on Korean language models.

arxiv情報

著者 Kanana LLM Team,Yunju Bak,Hojin Lee,Minho Ryu,Jiyeon Ham,Seungjae Jung,Daniel Wontae Nam,Taegyeong Eo,Donghun Lee,Doohae Jung,Boseop Kim,Nayeon Kim,Jaesun Park,Hyunho Kim,Hyunwoong Ko,Changmin Lee,Kyoung-Woon On,Seulye Baeg,Junrae Cho,Sunghee Jung,Jieun Kang,EungGyun Kim,Eunhwa Kim,Byeongil Ko,Daniel Lee,Minchul Lee,Miok Lee,Shinbok Lee,Gaeun Seo
発行日 2025-02-28 14:23:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク