Pretraining and Updating Language- and Domain-specific Large Language Model: A Case Study in Japanese Business Domain

要約

これまでのいくつかの研究では、言語固有およびドメイン固有の大規模言語モデル (LLM) を別個のトピックとして検討していました。
この研究では、日本のビジネスに特化した LLM に焦点を当て、英語以外の言語と需要の高い業界ドメインの組み合わせを調査します。
このタイプのモデルには、ビジネス ドメインの専門知識、強力な言語スキル、および知識の定期的な更新が必要です。
私たちは、ビジネス文書と特許の新しいデータセットを使用して 130 億パラメータの LLM をゼロからトレーニングし、最新のビジネス文書を使用して継続的に事前トレーニングしました。
さらに、日本のビジネス領域の質問応答 (QA) の新しいベンチマークを提案し、それに基づいてモデルを評価します。
結果は、事前トレーニングされたモデルが一般知識を失うことなく QA の精度を向上させ、継続的な事前トレーニングにより新しい情報への適応が強化されることを示しています。
当社の事前トレーニング済みモデルとビジネス ドメイン ベンチマークは一般公開されています。

要約(オリジナル)

Several previous studies have considered language- and domain-specific large language models (LLMs) as separate topics. This study explores the combination of a non-English language and a high-demand industry domain, focusing on a Japanese business-specific LLM. This type of a model requires expertise in the business domain, strong language skills, and regular updates of its knowledge. We trained a 13-billion-parameter LLM from scratch using a new dataset of business texts and patents, and continually pretrained it with the latest business documents. Further we propose a new benchmark for Japanese business domain question answering (QA) and evaluate our models on it. The results show that our pretrained model improves QA accuracy without losing general knowledge, and that continual pretraining enhances adaptation to new information. Our pretrained model and business domain benchmark are publicly available.

arxiv情報

著者 Kosuke Takahashi,Takahiro Omi,Kosuke Arima,Tatsuya Ishigaki
発行日 2024-04-12 06:21:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL パーマリンク