Unitary Multi-Margin BERT for Robust Natural Language Processing

要約

深層学習に対する敵対的攻撃の最近の進展により、多くのミッションクリティカルな自然言語処理 (NLP) システムが悪用の危険にさらされています。
計算効率の高い敵対的防御方法の欠如に対処するために、この論文では、ユニタリー重みとマルチマージン損失を組み合わせることで、トランスフォーマーからの双方向エンコーダー表現 (BERT) の堅牢性を大幅に向上させる、新規で汎用的な手法を報告します。
これら 2 つの単純なアイデアを組み合わせることで、悪意のある干渉に対する保護が強化されることがわかりました。
私たちのモデルであるユニタリー マルチマージン BERT (UniBERT) は、競争力のある攻撃前の精度を維持しながら、攻撃後の分類精度を 5.3% から 73.8% まで大幅に向上させます。
さらに、攻撃前と攻撃後の精度のトレードオフは、ターゲット アプリケーションの設計要件に最もよく適合するように、単一のスカラー パラメーターを介して調整できます。

要約(オリジナル)

Recent developments in adversarial attacks on deep learning leave many mission-critical natural language processing (NLP) systems at risk of exploitation. To address the lack of computationally efficient adversarial defense methods, this paper reports a novel, universal technique that drastically improves the robustness of Bidirectional Encoder Representations from Transformers (BERT) by combining the unitary weights with the multi-margin loss. We discover that the marriage of these two simple ideas amplifies the protection against malicious interference. Our model, the unitary multi-margin BERT (UniBERT), boosts post-attack classification accuracies significantly by 5.3% to 73.8% while maintaining competitive pre-attack accuracies. Furthermore, the pre-attack and post-attack accuracy tradeoff can be adjusted via a single scalar parameter to best fit the design requirements for the target applications.

arxiv情報

著者 Hao-Yuan Chang,Kang L. Wang
発行日 2024-10-16 17:30:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク