要約
既存の研究では、クリーンな例と敵対的な例の両方を使用してニューラル ネットワークのトレーニング データを強化すると、敵対的攻撃の下での一般化可能性が向上することが示されています。
ただし、このトレーニング アプローチでは、クリーンな入力に対するパフォーマンスの低下につながることがよくあります。
さらに、新しい攻撃タイプに対応するためにモデル全体を頻繁に再トレーニングする必要があり、その結果、膨大でコストのかかる計算が発生します。
このような制限により、特に数百万、さらには数十億のパラメータを持つ複雑な事前トレーニング済み言語モデル (PLM) の場合、敵対的トレーニング メカニズムが実用的ではなくなります。
敵対的トレーニングの理論上の利点を活用しながらこれらの課題を克服するために、この研究では 2 つの概念を組み合わせています: (1) パラメーター効率の高い微調整を可能にするアダプター、および (2) ペア データ ペアの凸組み合わせを介して NN をトレーニングするミックスアップ
。
直観的に、私たちは、微調整されたアダプターの非データペアの凸の組み合わせを通じて PLM を微調整することを提案します。1 つはクリーンなサンプルでトレーニングされ、もう 1 つは敵対的なサンプルでトレーニングされます。
私たちの実験では、提案された方法が、さまざまな下流タスクにおける他のベースラインと比較して、攻撃の有無にかかわらず、トレーニング効率と予測パフォーマンスの間で最良のトレードオフを達成していることが示されています。
要約(オリジナル)
Existing works show that augmenting training data of neural networks using both clean and adversarial examples can enhance their generalizability under adversarial attacks. However, this training approach often leads to performance degradation on clean inputs. Additionally, it requires frequent re-training of the entire model to account for new attack types, resulting in significant and costly computations. Such limitations make adversarial training mechanisms less practical, particularly for complex Pre-trained Language Models (PLMs) with millions or even billions of parameters. To overcome these challenges while still harnessing the theoretical benefits of adversarial training, this study combines two concepts: (1) adapters, which enable parameter-efficient fine-tuning, and (2) Mixup, which train NNs via convex combinations of pairs data pairs. Intuitively, we propose to fine-tune PLMs through convex combinations of non-data pairs of fine-tuned adapters, one trained with clean and another trained with adversarial examples. Our experiments show that the proposed method achieves the best trade-off between training efficiency and predictive performance, both with and without attacks compared to other baselines on a variety of downstream tasks.
arxiv情報
著者 | Tuc Nguyen,Thai Le |
発行日 | 2024-01-18 16:27:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google