要約
事前トレーニング済み言語モデル (PLM) は、自然言語処理 (NLP) タスクを大幅に進化させていますが、低リソースのデータセットで PLM を微調整すると、不安定性や過剰適合などの重大な課題が生じます。
従来の方法では、残りの重みを事前トレーニングされた重みに固定したまま、下流タスクで戦略的に選択されたサブネットワークを微調整することで、これらの問題に取り組んでいました。
ただし、サブネットワークの選択に関して次善の基準に依存しているため、次善のソリューションが得られます。
これらの制限に対処するために、PLM を微調整するための注意に基づく重みの混合に基づく正則化方法を提案します。
私たちのアプローチは、各ネットワークの重みをタスク固有の重みと事前トレーニングされた重みの混合として表し、学習可能なアテンション パラメーターによって制御され、サブネットワークの選択をより細かく制御できます。
さらに、トレーニング データセットの 2 つの別々の分割に対してバイレベル最適化 (BLO) ベースのフレームワークを採用し、一般化を改善し、過剰適合と闘います。
私たちは広範な実験を通じて提案した方法の有効性を検証し、特に低リソースのデータセットで PLM を微調整するコンテキストにおいて、以前の方法よりも優れていることを実証しました。
要約(オリジナル)
Pretrained Language Models (PLMs) have advanced Natural Language Processing (NLP) tasks significantly, but finetuning PLMs on low-resource datasets poses significant challenges such as instability and overfitting. Previous methods tackle these issues by finetuning a strategically chosen subnetwork on a downstream task, while keeping the remaining weights fixed to the pretrained weights. However, they rely on a suboptimal criteria for sub-network selection, leading to suboptimal solutions. To address these limitations, we propose a regularization method based on attention-guided weight mixup for finetuning PLMs. Our approach represents each network weight as a mixup of task-specific weight and pretrained weight, controlled by a learnable attention parameter, providing finer control over sub-network selection. Furthermore, we employ a bi-level optimization (BLO) based framework on two separate splits of the training dataset, improving generalization and combating overfitting. We validate the efficacy of our proposed method through extensive experiments, demonstrating its superiority over previous methods, particularly in the context of finetuning PLMs on low-resource datasets.
arxiv情報
著者 | Sai Ashish Somayajula,Youwei Liang,Abhishek Singh,Li Zhang,Pengtao Xie |
発行日 | 2024-03-19 17:21:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google