Pretraining and Updates of Domain-Specific LLM: A Case Study in the Japanese Business Domain

要約

さまざまな言語での大規模言語モデル (LLM) の開発が進んでいますが、英語以外の言語とドメイン固有のコンテキストとの組み合わせはまだ十分に研究されていません。
このホワイトペーパーでは、時事ニュース、技術レポート、特許などのビジネス関連文書をより深く理解するために設計された日本のビジネスドメイン固有の LLM のトレーニングと評価から得られた結果を紹介します。
さらに、このドメインの LLM は、最新の知識を組み込むために定期的に更新する必要があります。
したがって、先行研究では扱われていない重要な問題設定である、最新の論文データを使用したこのLLMの更新を伴う最初の実験と評価の結果も報告します。
ターゲット ドメインでの質問応答用に新しく作成したベンチマーク データセットでの実験から、(1) 事前トレーニングされたモデルは一般知識を失うことなく QA の精度を向上させ、(2) トレーニング内で最新のテキストと古いテキストが適切に混合されていることがわかりました。
アップデート用のデータが必要です。
当社の事前トレーニング済みモデルとビジネス ドメイン ベンチマークは、さらなる研究をサポートするために公開されています。

要約(オリジナル)

The development of Large Language Models (LLMs) in various languages has been advancing, but the combination of non-English languages with domain-specific contexts remains underexplored. This paper presents our findings from training and evaluating a Japanese business domain-specific LLM designed to better understand business-related documents, such as the news on current affairs, technical reports, and patents. Additionally, LLMs in this domain require regular updates to incorporate the most recent knowledge. Therefore, we also report our findings from the first experiments and evaluations involving updates to this LLM using the latest article data, which is an important problem setting that has not been addressed in previous research. From our experiments on a newly created benchmark dataset for question answering in the target domain, we found that (1) our pretrained model improves QA accuracy without losing general knowledge, and (2) a proper mixture of the latest and older texts in the training data for the update is necessary. Our pretrained model and business domain benchmark are publicly available to support further studies.

arxiv情報

著者 Kosuke Takahashi,Takahiro Omi,Kosuke Arima,Tatsuya Ishigaki
発行日 2024-11-06 16:19:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, I.2 パーマリンク