要約
事前トレーニングされたトランスフォーマーは、多くの NLP タスクにおいて人間のパフォーマンスに挑戦します。
事前トレーニングに使用される大規模なデータセットが、既存のタスクの成功の鍵であるようです。
この論文では、DarkNet コーパス上の分類タスクによって提供される、まったく見たことのない文に対して、事前トレーニングされたさまざまな自然言語理解モデルがどのように動作するかを調査します。
驚くべきことに、結果は、構文的および語彙的ニューラル ネットワークが、微調整後でも、事前にトレーニングされた Transformer と同等に機能することを示しています。
私たちが極端なドメイン適応と呼ぶもの、つまりすべての新規コーパスに対するマスクされた言語モデル タスクによる再トレーニングの後のみ、事前トレーニングされたトランスフォーマーは標準的な高い結果に達します。
これは、トランスフォーマーが考えられる文の多くにさらされているため、巨大な事前トレーニングコーパスが予期せぬ助けとなる可能性があることを示唆しています。
要約(オリジナル)
Pre-trained Transformers are challenging human performances in many NLP tasks. The massive datasets used for pre-training seem to be the key to their success on existing tasks. In this paper, we explore how a range of pre-trained Natural Language Understanding models perform on definitely unseen sentences provided by classification tasks over a DarkNet corpus. Surprisingly, results show that syntactic and lexical neural networks perform on par with pre-trained Transformers even after fine-tuning. Only after what we call extreme domain adaptation, that is, retraining with the masked language model task on all the novel corpus, pre-trained Transformers reach their standard high results. This suggests that huge pre-training corpora may give Transformers unexpected help since they are exposed to many of the possible sentences.
arxiv情報
著者 | Leonardo Ranaldi,Aria Nourbakhsh,Arianna Patrizi,Elena Sofia Ruzzetti,Dario Onorati,Francesca Fallucchi,Fabio Massimo Zanzotto |
発行日 | 2023-11-17 13:01:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google