要約
近年、トランスフォーマーベースのアーキテクチャが機械学習のさまざまな分野を支配してきました。
この論文では、トランスベースのアーキテクチャの回復力を強化するために設計された、新しい堅牢なアテンション メカニズムを紹介します。
重要なことは、この技術はプラグアンドプレイ層として既存の変圧器に統合でき、追加のトレーニングや微調整を必要とせずに堅牢性を向上させることができます。
包括的な実験とアブレーション研究を通じて、当社の ProTransformer がさまざまな予測タスク、攻撃メカニズム、バックボーン アーキテクチャ、およびデータ ドメインにわたってトランス モデルの堅牢性を大幅に強化することを実証しています。
特に、ProTransformer は、さらなる微調整を行わなくても、従来の TextFooler 攻撃下で、バニラ トランスフォーマーのパフォーマンスを、BERT、ALBERT、DistilBERT、および RoBERTa に対してそれぞれ 19.5%、28.3%、16.1%、および 11.4% 一貫して向上させています。
さらに、ProTransformer は、プロンプトベースの攻撃に対して大規模言語モデル (LLM) で有望な回復力を示し、T5 と LLaMA のパフォーマンスをそれぞれ 24.8% と 17.8% 向上させ、ジェイルブレイク攻撃に対して Vicuna を平均 10.4% 強化しました。
言語ドメインを超えて、ProTransformer はビジョンとグラフの両方のドメインでも優れた堅牢性を示します。
要約(オリジナル)
Transformer-based architectures have dominated various areas of machine learning in recent years. In this paper, we introduce a novel robust attention mechanism designed to enhance the resilience of transformer-based architectures. Crucially, this technique can be integrated into existing transformers as a plug-and-play layer, improving their robustness without the need for additional training or fine-tuning. Through comprehensive experiments and ablation studies, we demonstrate that our ProTransformer significantly enhances the robustness of transformer models across a variety of prediction tasks, attack mechanisms, backbone architectures, and data domains. Notably, without further fine-tuning, the ProTransformer consistently improves the performance of vanilla transformers by 19.5%, 28.3%, 16.1%, and 11.4% for BERT, ALBERT, DistilBERT, and RoBERTa, respectively, under the classical TextFooler attack. Furthermore, ProTransformer shows promising resilience in large language models (LLMs) against prompting-based attacks, improving the performance of T5 and LLaMA by 24.8% and 17.8%, respectively, and enhancing Vicuna by an average of 10.4% against the Jailbreaking attack. Beyond the language domain, ProTransformer also demonstrates outstanding robustness in both vision and graph domains.
arxiv情報
著者 | Zhichao Hou,Weizhi Gao,Yuchen Shen,Feiyi Wang,Xiaorui Liu |
発行日 | 2024-10-30 16:38:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google