A Comparative Study of Pre-training and Self-training

要約

事前トレーニングと自己トレーニングは、半教師あり学習への 2 つのアプローチです。
事前トレーニングと自己トレーニングの比較が検討されました。
しかし、これまでの研究では、混乱を招く結果が得られました。比較できない設定の特定の条件下では、コンピュータ ビジョンの一部のタスクでは自己トレーニングが経験した事前トレーニングよりも優れており、逆に、自然言語処理では、一部のタスクでは事前トレーニングが経験した自己トレーニングよりも優れています。

我々は、データ拡張に匹敵する一貫した基礎設定内で事前トレーニング、自己トレーニング、微調整を組み合わせたすべての実行可能なトレーニングパラダイムを実証的に研究するためのアンサンブル手法を比較的かつ徹底的に提案します。
感情分析と自然言語推論タスクのために、6 つのデータセット、4 つのデータ拡張、および不均衡なデータに対して実験を実施します。
私たちの調査結果は、事前トレーニングと微調整パラダイムが全体的に最高のパフォーマンスを生み出すことを裏付けています。
さらに、セルフトレーニングは、半教師付き事前トレーニングと組み合わせても追加の利点はありません。

要約(オリジナル)

Pre-training and self-training are two approaches to semi-supervised learning. The comparison between pre-training and self-training has been explored. However, the previous works led to confusing findings: self-training outperforms pre-training experienced on some tasks in computer vision, and contrarily, pre-training outperforms self-training experienced on some tasks in natural language processing, under certain conditions of incomparable settings. We propose, comparatively and exhaustively, an ensemble method to empirical study all feasible training paradigms combining pre-training, self-training, and fine-tuning within consistent foundational settings comparable to data augmentation. We conduct experiments on six datasets, four data augmentation, and imbalanced data for sentiment analysis and natural language inference tasks. Our findings confirm that the pre-training and fine-tuning paradigm yields the best overall performances. Moreover, self-training offers no additional benefits when combined with semi-supervised pre-training.

arxiv情報

著者 Yiheng Wang,Jiayu Lin,Zuoquan Lin
発行日 2024-09-04 14:30:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク