KIT-19: A Comprehensive Korean Instruction Toolkit on 19 Tasks for Fine-Tuning Korean Large Language Models

要約

大規模言語モデルでの命令チューニングは、モデルが適切に機能し、特定のタスクで高いパフォーマンスを達成するために不可欠なプロセスです。
したがって、英語などの主流言語では、命令ベースのデータセットが構築され、公開されています。
韓国語の場合、公開されているモデルとデータセットはすべて、ChatGPT の出力の使用、または英語で構築されたデータセットの翻訳に依存しています。
この論文では、韓国語で LLM を開発するための命令データセットとして \textit{KIT-19} を紹介します。
\textit{KIT-19} は命令形式で作成されたデータセットで、韓国語の NLP タスク用の 19 の既存のオープンソース データセットで構成されています。
この論文では、\textit{KIT-19} を使用して韓国語の事前トレーニング済み LLM をトレーニングし、その有効性を実証します。
実験結果は、\textit{KIT-19} でトレーニングされたモデルが既存の韓国語 LLM よりも大幅に優れていることを示しています。
この論文は、その品質と実証結果に基づいて、\textit{KIT-19} が韓国の LLM の将来のパフォーマンス向上に大きく貢献する可能性があることを提案します。

要約(オリジナル)

Instruction Tuning on Large Language Models is an essential process for model to function well and achieve high performance in specific tasks. Accordingly, in mainstream languages such as English, instruction-based datasets are being constructed and made publicly available. In the case of Korean, publicly available models and datasets all rely on using the output of ChatGPT or translating datasets built in English. In this paper, We introduce \textit{KIT-19} as an instruction dataset for the development of LLM in Korean. \textit{KIT-19} is a dataset created in an instruction format, comprising 19 existing open-source datasets for Korean NLP tasks. In this paper, we train a Korean Pretrained LLM using \textit{KIT-19} to demonstrate its effectiveness. The experimental results show that the model trained on \textit{KIT-19} significantly outperforms existing Korean LLMs. Based on the its quality and empirical results, this paper proposes that \textit{KIT-19} has the potential to make a substantial contribution to the future improvement of Korean LLMs’ performance.

arxiv情報

著者 Dongjun Jang,Sungjoo Byun,Hyemi Jo,Hyopil Shin
発行日 2024-03-25 06:15:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク