要約
大規模言語モデル (LLM) を含む言語モデルのドメイン適応は、そのようなモデルの使用が拡大し続けるにつれてますます重要になっています。
この研究は、金融領域への適応における、Composition to Augment Language Models (CALM) の有効性を実証しています。
CALM は、異なる機能を持つ 2 つの LLM 間にクロスアテンションを導入することで、既存のモデルの機能を拡張するモデルです。
今回の実験では、財務に特化したLLMを活用し、対応力の高いLLMの財務パフォーマンスを向上させるCALMを開発しました。
特に、CALM は金融に特化した LLM のトレーニングに使用されたものとは異なる金融データセットを使用してトレーニングされており、CALM がさまざまなデータセットに適応できることが確認されました。
モデルは、日本の定量的な金融ベンチマークと定性的な応答の比較を通じて評価され、CALM が元のモデルやベースラインよりも高いスコアで優れた応答を可能にすることが実証されました。
さらに、接続ポイントの比較実験により、金融領域への適応を促進するには、モデルの中間層を接続することが最も効果的であることが明らかになりました。
これらの調査結果は、CALM が LLM を金融ドメインに適応させるための実用的なアプローチであることを裏付けています。
要約(オリジナル)
The domain adaptation of language models, including large language models (LLMs), has become increasingly important as the use of such models continues to expand. This study demonstrates the effectiveness of Composition to Augment Language Models (CALM) in adapting to the financial domain. CALM is a model to extend the capabilities of existing models by introducing cross-attention between two LLMs with different functions. In our experiments, we developed a CALM to enhance the financial performance of an LLM with strong response capabilities by leveraging a financial-specialized LLM. Notably, the CALM was trained using a financial dataset different from the one used to train the financial-specialized LLM, confirming CALM’s ability to adapt to various datasets. The models were evaluated through quantitative Japanese financial benchmarks and qualitative response comparisons, demonstrating that CALM enables superior responses with higher scores than the original models and baselines. Additionally, comparative experiments on connection points revealed that connecting the middle layers of the models is most effective in facilitating adaptation to the financial domain. These findings confirm that CALM is a practical approach for adapting LLMs to the financial domain.
arxiv情報
著者 | Kota Tanabe,Masanori Hirano,Kazuki Matoya,Kentaro Imajo,Hiroki Sakaji,Itsuki Noda |
発行日 | 2024-11-14 07:28:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google