要約
最先端の事前トレーニング済み言語モデル (PLM) の再利用性は、一般化問題によって制限されることが多く、トレーニング データセットとは異なるサンプルで評価するとパフォーマンスが大幅に低下します (「配布外」(Out-of-Distribution))。
OOD)/未見の例。
この制限は、PLM が擬似相関に依存していることから発生します。擬似相関は、頻繁に使用される例の種類にはうまく機能しますが、一般的な例にはうまく機能しません。
この問題に対処するために、マスク チューニングと呼ばれるトレーニング アプローチを提案します。これは、マスク言語モデリング (MLM) トレーニング目標を微調整プロセスに統合して、PLM の一般化を強化します。
包括的な実験により、マスク チューニングが現在の最先端技術を上回り、分布内データセットでのパフォーマンスを向上させながら、OOD データセットでの PLM の一般化が強化されることが実証されました。
この調査結果は、マスク チューニングにより、目に見えないデータに対する PLM の再利用性が向上し、現実世界のアプリケーションにとって PLM がより実用的で効果的なものになることが示唆されています。
要約(オリジナル)
The reusability of state-of-the-art Pre-trained Language Models (PLMs) is often limited by their generalization problem, where their performance drastically decreases when evaluated on examples that differ from the training dataset, known as Out-of-Distribution (OOD)/unseen examples. This limitation arises from PLMs’ reliance on spurious correlations, which work well for frequent example types but not for general examples. To address this issue, we propose a training approach called Mask-tuning, which integrates Masked Language Modeling (MLM) training objectives into the fine-tuning process to enhance PLMs’ generalization. Comprehensive experiments demonstrate that Mask-tuning surpasses current state-of-the-art techniques and enhances PLMs’ generalization on OOD datasets while improving their performance on in-distribution datasets. The findings suggest that Mask-tuning improves the reusability of PLMs on unseen data, making them more practical and effective for real-world applications.
arxiv情報
著者 | Somayeh Ghanbarzadeh,Hamid Palangi,Yan Huang,Radames Cruz Moreno,Hamed Khanpour |
発行日 | 2023-08-08 04:18:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google