Construction of Domain-specified Japanese Large Language Model for Finance through Continual Pre-training

要約

大規模言語モデル (LLM) は現在、金融を含むさまざまな分野で広く使用されています。
しかし、日本の金融に特化した LLM はまだ提案されていません。
そこで本研究は、継続的な事前トレーニングを通じて日本金融に特化したLLMを構築することを目的としている。
チューニングの前に、継続的な事前トレーニングのために日本の金融に焦点を当てたデータセットを構築しました。
ベースモデルには、100億クラスのパラメータモデルの中で日本の金融ベンチマークにおいて最先端の性能を実現した日本版LLMを採用しました。
データセットと基本モデルを使用して事前トレーニングを継続した後、調整されたモデルは日本の金融ベンチマークで元のモデルよりも優れたパフォーマンスを示しました。
さらに、出力の比較結果から、応答の品質と長さの点で、調整されたモデルの出力が元のモデルの出力よりも優れている傾向があることがわかります。
これらの発見は、ドメイン固有の継続的な事前トレーニングが LLM にも効果的であることを示しています。
チューニングされたモデルはHugging Faceで公開されています。

要約(オリジナル)

Large language models (LLMs) are now widely used in various fields, including finance. However, Japanese financial-specific LLMs have not been proposed yet. Hence, this study aims to construct a Japanese financial-specific LLM through continual pre-training. Before tuning, we constructed Japanese financial-focused datasets for continual pre-training. As a base model, we employed a Japanese LLM that achieved state-of-the-art performance on Japanese financial benchmarks among the 10-billion-class parameter models. After continual pre-training using the datasets and the base model, the tuned model performed better than the original model on the Japanese financial benchmarks. Moreover, the outputs comparison results reveal that the tuned model’s outputs tend to be better than the original model’s outputs in terms of the quality and length of the answers. These findings indicate that domain-specific continual pre-training is also effective for LLMs. The tuned model is publicly available on Hugging Face.

arxiv情報

著者 Masanori Hirano,Kentaro Imajo
発行日 2024-04-16 13:26:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, q-fin.CP パーマリンク