ROIC-DM: Robust Text Inference and Classification via Diffusion Model

要約

言語モデルは、テキスト推論と分類タスクにおいて多くのマイルストーンを達成しましたが、予期せぬ結果を引き起こす可能性のある敵対的攻撃の影響を受けやすいままです。
既存の研究では、言語モデルに防御パッチを装備することでこの問題を軽減しています。
ただし、これらの防御戦略は多くの場合、非現実的な仮定に依存したり、モデルのパフォーマンスに大きな犠牲を強いたりします。
したがって、このような防御メカニズムを使用してターゲット モデルの回復力を強化することは、非常に困難な課題です。
この論文では、拡散モデル (ROIC-DM) に基づいて構築された、堅牢なテキスト推論と分類のための革新的なモデルを紹介します。
ROIC-DM は、ノイズ除去段階を含むトレーニングの恩恵を受けて、従来の言語モデルと比較して本質的に優れた堅牢性を示します。
さらに、ROIC-DM は、言語モデルをアドバイザリー コンポーネントとして効果的に組み込むことにより、言語モデルと同等の、場合によっては優れたパフォーマンスを達成できます。
3 つのデータセットに対していくつかの強力なテキスト敵対的攻撃を使って行われた広範な実験により、(1) ROIC-DM は、たとえ後者が高度な防御メカニズムで強化されていたとしても、堅牢性において従来の言語モデルを上回っていることが実証されました。
(2) ROIC-DM は、従来の言語モデルをアドバイザーとして使用することで、従来の言語モデルと同等かそれ以上のパフォーマンスを実現できます。

要約(オリジナル)

While language models have made many milestones in text inference and classification tasks, they remain susceptible to adversarial attacks that can lead to unforeseen outcomes. Existing works alleviate this problem by equipping language models with defense patches. However, these defense strategies often rely on impractical assumptions or entail substantial sacrifices in model performance. Consequently, enhancing the resilience of the target model using such defense mechanisms is a formidable challenge. This paper introduces an innovative model for robust text inference and classification, built upon diffusion models (ROIC-DM). Benefiting from its training involving denoising stages, ROIC-DM inherently exhibits greater robustness compared to conventional language models. Moreover, ROIC-DM can attain comparable, and in some cases, superior performance to language models, by effectively incorporating them as advisory components. Extensive experiments conducted with several strong textual adversarial attacks on three datasets demonstrate that (1) ROIC-DM outperforms traditional language models in robustness, even when the latter are fortified with advanced defense mechanisms; (2) ROIC-DM can achieve comparable and even better performance than traditional language models by using them as advisors.

arxiv情報

著者 Shilong Yuan,Wei Yuan,Hongzhi Yin,Tieke He
発行日 2024-01-09 07:18:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク