The Diminishing Returns of Masked Language Models to Science

要約

タイトル: 科学におけるマスクされた言語モデルの収益の低下
要約:Transformerをベースとしたマスクされた言語モデル(BERT)は、一般的なコーパスに基づいて訓練され、下流タスクにおいて印象的なパフォーマンスを発揮している。また、そのようなモデルの下流タスクパフォーマンスは、より多くのデータでより長い時間をかけてより大きなモデルを事前学習することで改善できることが示されている。本研究では、これらの結果が科学のタスクにどの程度適用されるかを実証的に評価する。科学に特化した新しい770MパラメータのScholarBERTを含む14のドメイン固有のTransformerベースのモデルを使用し、12の下流科学タスクのトレーニングデータ、モデルサイズ、事前トレーニング、および微調整時間の影響を評価した。興味深いことに、我々は、モデルサイズ、トレーニングデータ、またはコンピュート時間を増やしても、科学情報抽出タスクで有意な改善(つまり、>1% F1)をもたらすわけではなく、時には性能差が生じることを発見し、その驚くべき性能差の説明をした。

– BERTといったマスクされた言語モデルは、一般的なコーパスを用いて訓練され、下流タスクにおいて印象的なパフォーマンスを持つ。
– より多くのデータでより長い時間をかけてより大きなモデルを事前学習することで、そのパフォーマンスを改善することができる。
– 本研究では、14の科学に特化したTransformerベースのモデルを用いて、12の下流科学タスクの性能を評価した。
– モデルサイズ、トレーニングデータ、またはコンピュート時間を増やしても、科学情報抽出タスクで有意な改善をもたらすわけではなく、時には性能差が生じることがある。
– この結果を説明する理由について、研究者たちは考察している。

要約(オリジナル)

Transformer-based masked language models such as BERT, trained on general corpora, have shown impressive performance on downstream tasks. It has also been demonstrated that the downstream task performance of such models can be improved by pretraining larger models for longer on more data. In this work, we empirically evaluate the extent to which these results extend to tasks in science. We use 14 domain-specific transformer-based models (including ScholarBERT, a new 770M-parameter science-focused masked language model pretrained on up to 225B tokens) to evaluate the impact of training data, model size, pretraining and finetuning time on 12 downstream scientific tasks. Interestingly, we find that increasing model sizes, training data, or compute time does not always lead to significant improvements (i.e., >1% F1), if at all, in scientific information extraction tasks and offered possible explanations for the surprising performance differences.

arxiv情報

著者 Zhi Hong,Aswathy Ajith,Gregory Pauloski,Eamon Duede,Kyle Chard,Ian Foster
発行日 2023-05-03 15:21:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG, I.2.7 パーマリンク