Pre-training data selection for biomedical domain adaptation using journal impact metrics

要約

ドメイン適応は、特定のドメイン内の言語モデルのパフォーマンスを向上させるために、自然言語処理 (NLP) で広く使用されている方法です。
この方法は、多数の科学論文が定期的に出版されている生物医学分野で特に一般的です。
重要なテキストのコーパスである PubMed は、生物医学の分野で頻繁に使用されます。
この研究の主な目的は、科学論文の特定の品質メトリクスを使用して事前トレーニング データセットを改良することで、結果として得られるモデルのパフォーマンスを向上できるかどうかを調査することです。
これを達成するために、私たちは 2 つの直接的なジャーナル影響指標を採用し、完全な PubMed トレーニング セットのさまざまなサブセットで BERT を継続的に事前トレーニングすることによって実験を実施し、その後、BLURB ベンチマークから得られた生物医学言語理解タスクに関するモデルを評価します。
私たちの結果は、ジャーナルの影響指標を使用した枝刈りは効率的ではないことを示しています。
しかし、より少ない抽象を使用した事前トレーニング (ただし同じ数のトレーニング ステップ) が、結果として得られるモデルのパフォーマンスを必ずしも低下させるわけではないことも示します。

要約(オリジナル)

Domain adaptation is a widely used method in natural language processing (NLP) to improve the performance of a language model within a specific domain. This method is particularly common in the biomedical domain, which sees regular publication of numerous scientific articles. PubMed, a significant corpus of text, is frequently used in the biomedical domain. The primary objective of this study is to explore whether refining a pre-training dataset using specific quality metrics for scientific papers can enhance the performance of the resulting model. To accomplish this, we employ two straightforward journal impact metrics and conduct experiments by continually pre-training BERT on various subsets of the complete PubMed training set, we then evaluate the resulting models on biomedical language understanding tasks from the BLURB benchmark. Our results show that pruning using journal impact metrics is not efficient. But we also show that pre-training using fewer abstracts (but with the same number of training steps) does not necessarily decrease the resulting model’s performance.

arxiv情報

著者 Mathieu Laï-king,Patrick Paroubek
発行日 2024-09-04 13:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク