Adapting Large Language Models via Reading Comprehension

要約

私たちは、ドメイン固有のコーパスでの継続的な事前トレーニングが大規模な言語モデルにどのような影響を与えるかを調査し、生のコーパスでのトレーニングはモデルにドメイン知識を与えますが、質問応答のプロンプト能力を大幅に損なうことを明らかにしました。
読解による人間の学習からインスピレーションを得て、読書後に練習することで、学習した知識に基づいて質問に答える能力が向上します。私たちは、生のコーパスを読解テキストに変換する簡単な方法を提案します。
各生のテキストには、その内容に関連する一連のタスクが付加されています。
私たちの手法は拡張性が高く、あらゆる事前トレーニングコーパスに適用でき、生物医学、金融、法律という 3 つの異なる領域のさまざまなタスクにわたってパフォーマンスを一貫して向上させます。
特に、当社の 7B 言語モデルは、BloombergGPT-50B など、より大規模なドメイン固有のモデルと競合するパフォーマンスを達成しています。
さらに、分野固有の読解テキストが一般的なベンチマークでもモデルのパフォーマンスを向上させることができることを実証し、さらに多くの分野にわたる一般的なモデルを開発できる可能性を示しています。
私たちのモデル、コード、データは https://github.com/microsoft/LMOps で入手できます。

要約(オリジナル)

We explore how continued pre-training on domain-specific corpora influences large language models, revealing that training on the raw corpora endows the model with domain knowledge, but drastically hurts its prompting ability for question answering. Taken inspiration from human learning via reading comprehension–practice after reading improves the ability to answer questions based on the learned knowledge–we propose a simple method for transforming raw corpora into reading comprehension texts. Each raw text is enriched with a series of tasks related to its content. Our method, highly scalable and applicable to any pre-training corpora, consistently enhances performance across various tasks in three different domains: biomedicine, finance, and law. Notably, our 7B language model achieves competitive performance with domain-specific models of much larger scales, such as BloombergGPT-50B. Furthermore, we demonstrate that domain-specific reading comprehension texts can improve the model’s performance even on general benchmarks, showing the potential to develop a general model across even more domains. Our model, code, and data will be available at https://github.com/microsoft/LMOps.

arxiv情報

著者 Daixuan Cheng,Shaohan Huang,Furu Wei
発行日 2023-09-18 07:17:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク