BERT Goes Off-Topic: Investigating the Domain Transfer Challenge using Genre Classification

要約

多くのテキスト分類タスクのパフォーマンスは、事前トレーニング済み言語モデル (PLM) のおかげで最近改善されましたが、この論文では、基礎となるトピックの分布が変化すると依然としてパフォーマンスのギャップに悩まされることを示します。
たとえば、\textit{政治} トピックでトレーニングされたジャンル分類器は、\textit{スポーツ} または \textit{医学} に関するドキュメントでテストすると失敗することがよくあります。
この研究では、大規模なコーパスと一連のトピックを使用して、この現象を経験的に定量化します。
その結果、BERT などの古典的な PLM と GPT-3 などの最新の大規模モデルの両方でドメイン転送が依然として困難であることが確認されました。
また、考えられる解決策を提案し、テストに成功しました。トピックごとに制御された合成テキストでトレーニング データセットを強化した後、一部のトピックでは F1 スコアが最大 50\% 向上し、トピックどおりのトレーニング結果に近づきましたが、他のトピックではほとんど改善が見られませんでした。

私たちの経験的結果はジャンル分類に焦点を当てていますが、私たちの方法論は性別、著者、感情分類などの他の分類タスクにも適用できます。
実験を再現するためのコードとデータは、https://github.com/dminus1/genre で入手できます。

要約(オリジナル)

While performance of many text classification tasks has been recently improved due to Pre-trained Language Models (PLMs), in this paper we show that they still suffer from a performance gap when the underlying distribution of topics changes. For example, a genre classifier trained on \textit{political} topics often fails when tested on documents about \textit{sport} or \textit{medicine}. In this work, we quantify this phenomenon empirically with a large corpus and a large set of topics. Consequently, we verify that domain transfer remains challenging both for classic PLMs, such as BERT, and for modern large models, such as GPT-3. We also suggest and successfully test a possible remedy: after augmenting the training dataset with topically-controlled synthetic texts, the F1 score improves by up to 50\% for some topics, nearing on-topic training results, while others show little to no improvement. While our empirical results focus on genre classification, our methodology is applicable to other classification tasks such as gender, authorship, or sentiment classification. The code and data to replicate the experiments are available at https://github.com/dminus1/genre

arxiv情報

著者 Dmitri Roussinov,Serge Sharoff
発行日 2023-11-27 18:53:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク