要約
事前トレーニングされた言語モデルは、さまざまな言語タスクを微調整するための強力なツールとして最近登場しました。
理想的には、モデルが大量のデータで事前トレーニングされると、暗黙的な知識を得ることが期待されます。
この論文では、事前トレーニングされた言語モデルがさまざまな非言語タスクに一般化できるかどうかを調査します。
特に、コンピューター ビジョン、階層データの推論、タンパク質の折り畳み予測など、さまざまなドメインのタスクでテストします。
私たちが使用した 4 つの事前トレーニング済みモデル、T5、BART、BERT、および GPT-2 は、優れた結果を達成しました。
これらはすべて同様のパフォーマンスを持ち、ゼロからトレーニングされたトランスフォーマーよりも大幅に優れています。
たとえば、事前トレーニングされた言語モデルは、Listops データセット上でより優れたパフォーマンスを示し、平均精度は 58.7% ですが、ゼロからトレーニングされたトランスフォーマーの平均精度は 29.0% です。
3 種類のデータセットにわたって示された大幅な改善は、言語に関する事前トレーニングによってモデルが一般知識を獲得するのに役立ち、一般的な AI に一歩近づくことができることを示唆しています。
また、T5-Base の代わりに T5-Small を使用するとパフォーマンスがわずかに低下するため、事前トレーニングされた言語モデルのパラメーターの数を減らしても大きな影響はないことも示しました。
実際、パラメータの 2\% のみを使用した場合、最初からトレーニングする場合と比較して大幅な改善が達成されました。
最後に、以前の研究とは対照的に、望ましい結果を達成するには、入力層に事前トレーニングされた埋め込みを使用することが必要であることがわかりました。
要約(オリジナル)
Pre-trained language models have recently emerged as a powerful tool for fine-tuning a variety of language tasks. Ideally, when models are pre-trained on large amount of data, they are expected to gain implicit knowledge. In this paper, we investigate the ability of pre-trained language models to generalize to different non-language tasks. In particular, we test them on tasks from different domains such as computer vision, reasoning on hierarchical data, and protein fold prediction. The four pre-trained models that we used, T5, BART, BERT, and GPT-2 achieve outstanding results. They all have similar performance and they outperform transformers that are trained from scratch by a large margin. For instance, pre-trained language models perform better on the Listops dataset, with an average accuracy of 58.7\%, compared to transformers trained from scratch, which have an average accuracy of 29.0\%. The significant improvement demonstrated across three types of datasets suggests that pre-training on language helps the models to acquire general knowledge, bringing us a step closer to general AI. We also showed that reducing the number of parameters in pre-trained language models does not have a great impact as the performance drops slightly when using T5-Small instead of T5-Base. In fact, when using only 2\% of the parameters, we achieved a great improvement compared to training from scratch. Finally, in contrast to prior work, we find out that using pre-trained embeddings for the input layer is necessary to achieve the desired results.
arxiv情報
著者 | Mohamad Ballout,Ulf Krumnack,Gunther Heidemann,Kai-Uwe Kühnberger |
発行日 | 2023-06-21 11:55:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google