DoPAMine: Domain-specific Pre-training Adaptation from seed-guided data Mining

要約

大規模言語モデル (LLM) は、さまざまなタスクを実行しながら、多数の業界ドメインにわたって効果的に一般化する驚くべき能力を示しています。
これらのコンピテンシーの多くは、言語モデル (LM) の事前トレーニング段階で利用されたデータから取得されます。
ただし、これらのモデルは、特殊な業界ドメインまたは低リソースの業界ドメインで実行するタスクを実行する場合には限界があります。
最近のアプローチでは、ドメイン固有の合成データを生成するために LLM が使用されますが、ほとんどの場合、真実性と複雑さに欠けています。
あるいは、ヘルスケアや金融などのドメイン データが利用可能な場合、LM のほとんどは独自のものであるため、現実世界の業界固有の事前トレーニング データをキュレーションするためのスケーラブルな方法が必要になります。
この研究では、LM のドメイン適応のために大規模なデータ コーパスからドメイン固有のトレーニング データをマイニングするための、自動化されたスケーラブルなフレームワークである DoPAMine: シードガイド付きデータ マイニングからのドメイン固有の事前トレーニング適応を提案します。
このフレームワークは、LLM のパラメトリック知識を活用して、特定のドメインに合わせた多様で代表的なシード データを生成し、その後、Common Crawl のような大規模なデータ コーパスから現実世界のデータをマイニングするために使用されます。
DoPAMine 経由でマイニングされたデータを使用してヘルスケアと金融の 2 つのドメイン固有の 7B パラメーター LM をトレーニングすることにより、継続的事前トレーニング (CPT) 設定でフレームワークのパフォーマンスを評価しました。
私たちの実験によると、DoPAMine は、MMLU、MedQA、MedMCQA、PubMedQA データセットからの医療タスクにおいて、事前トレーニングされた LLM のパフォーマンスを、ゼロショット設定と 5 ショット設定でそれぞれ平均 4.9% と 5.1%、平均して 2.9% と 6.7% 向上させたことが示されています。
FiQA-SA、FPB、Headlines データセットの財務タスクのゼロショット設定と 5 ショット設定をそれぞれベースラインと比較したもの。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable ability to generalize effectively across numerous industry domains while executing a range of tasks. Many of these competencies are obtained from the data utilized during the pre-training phase of the Language Models (LMs). However, these models exhibit limitations when tasked with performing in specialized or low-resource industry domains. More recent approaches use LLMs for generating domain-specific synthetic data but most often they lack in truthfulness and complexity. Alternatively, in cases where domain data is available like healthcare and finance most of the LMs are proprietary necessitating the need for a scalable method to curate real world industry specific pre-training data. In this work, we propose an automated and scalable framework – DoPAMine:Domain-specific Pre-training Adaptation from seed-guided data Mining, to mine domain specific training data from a large data corpus for domain adaptation of a LM. The framework leverages the parametric knowledge of a LLM to generate diverse and representative seed data tailored to a specific domain which is then used to mine real world data from a large data corpus like Common Crawl. We evaluated our framework’s performance in the continual pre-training (CPT) setting by training two domain specific 7B parameter LMs in healthcare and finance with data mined via DoPAMine. Our experiments show that DoPAMine boosts the performance of pre-trained LLMs on average by 4.9% and 5.1% in zero-shot and 5-shot settings respectively on healthcare tasks from MMLU, MedQA, MedMCQA and PubMedQA datasets, and 2.9% and 6.7% for zero-shot and 5-shot settings respectively on finance tasks from FiQA-SA, FPB and Headlines datasets when compared to the baseline.

arxiv情報

著者 Vinayak Arannil,Neha Narwal,Sourav Sanjukta Bhabesh,Sai Nikhil Thirandas,Darren Yow-Bang Wang,Graham Horwood,Alex Anto Chirayath,Gouri Pandeshwar
発行日 2024-10-09 17:39:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク