要約
大規模な言語モデル(LLMS)は、さまざまなタスクで顕著なパフォーマンスを実証していますが、ドメイン固有のデータセットからより深い洞察を抽出して内面化する能力は未定です。
この研究では、トレーニング前の継続的なトレーニングが、宣言的、統計的、および確率的洞察という3つの異なる形式で洞察学習のためのLLMSの能力をどのように強化できるかを調査します。
薬と金融の2つの重要なドメインに焦点を当てて、LORAを使用して2つの既存のデータセットでLLMSを訓練しています。
各洞察タイプを評価するために、ベンチマークを作成して、継続的なトレーニング前の継続的なトレーニングがモデルが表面レベルの知識を超えてどれだけ役立つかを測定します。
また、洞察のキャプチャに対するドキュメントの変更の影響も評価します。
結果は、元のドキュメントでの継続的な事前トレーニングにはわずかな効果があるが、本質的な情報のみを保持するために文書を変更すると、LLMの洞察学習能力が大幅に向上することを示しています。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated remarkable performance on various tasks, yet their ability to extract and internalize deeper insights from domain-specific datasets remains underexplored. In this study, we investigate how continual pre-training can enhance LLMs’ capacity for insight learning across three distinct forms: declarative, statistical, and probabilistic insights. Focusing on two critical domains: medicine and finance, we employ LoRA to train LLMs on two existing datasets. To evaluate each insight type, we create benchmarks to measure how well continual pre-training helps models go beyond surface-level knowledge. We also assess the impact of document modification on capturing insights. The results show that, while continual pre-training on original documents has a marginal effect, modifying documents to retain only essential information significantly enhances the insight-learning capabilities of LLMs.
arxiv情報
著者 | Pouya Pezeshkpour,Estevam Hruschka |
発行日 | 2025-01-29 18:40:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google