Bag of Lies: Robustness in Continuous Pre-training BERT

要約

この研究は、新型コロナウイルス感染症のパンデミックをケーススタディとして使用し、エンティティ知識に関する BERT の継続的な事前トレーニング段階についてより多くの洞察を獲得することを目的としています。
BERT の事前トレーニング データが最後に更新された後にパンデミックが発生したため、モデルには COVID-19 に関するエンティティの知識がほとんどまたはまったくありません。
継続的な事前トレーニングを使用して、どのエンティティの知識がモデルで利用できるかを制御します。
ベースライン BERT モデルと、ファクトチェック ベンチマーク Check-COVID でさらに事前トレーニングされたバリアントを比較します。
継続的な事前トレーニングの堅牢性をテストするために、誤った情報に基づいてトレーニングしたり、入力が意味をなさなくなるまで語順をシャッフルしたりするなど、入力データを操作するいくつかの敵対的な方法を実験します。
驚くべきことに、私たちの調査結果では、これらの方法はモデルの下流のパフォーマンスを低下させず、場合によっては向上させることさえあることが明らかになりました。
これは、BERT の継続的な事前トレーニングが誤った情報に対して堅牢であることを示唆しています。
さらに、LitCovid リポジトリ内の学術出版物の原文と、AI によって生成された偽の対応物で構成される新しいデータセットをリリースします。

要約(オリジナル)

This study aims to acquire more insights into the continuous pre-training phase of BERT regarding entity knowledge, using the COVID-19 pandemic as a case study. Since the pandemic emerged after the last update of BERT’s pre-training data, the model has little to no entity knowledge about COVID-19. Using continuous pre-training, we control what entity knowledge is available to the model. We compare the baseline BERT model with the further pre-trained variants on the fact-checking benchmark Check-COVID. To test the robustness of continuous pre-training, we experiment with several adversarial methods to manipulate the input data, such as training on misinformation and shuffling the word order until the input becomes nonsensical. Surprisingly, our findings reveal that these methods do not degrade, and sometimes even improve, the model’s downstream performance. This suggests that continuous pre-training of BERT is robust against misinformation. Furthermore, we are releasing a new dataset, consisting of original texts from academic publications in the LitCovid repository and their AI-generated false counterparts.

arxiv情報

著者 Ine Gevers,Walter Daelemans
発行日 2024-06-14 12:16:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク