AdvWave: Stealthy Adversarial Jailbreak Attack against Large Audio-Language Models

要約

大規模音声言語モデル (LALM) の最近の進歩により、音声ベースのユーザー インタラクションが可能になり、ユーザー エクスペリエンスが大幅に向上し、現実世界のアプリケーションでの LALM の展開が加速されました。
ただし、LALM の安全性を確保することは、社会的懸念を引き起こしたり、AI 規制に違反したりする可能性のある危険な出力を防ぐために重要です。
この問題の重要性にもかかわらず、LALM のジェイルブレイクに関する研究は、LALM が最近出現したことと、DNN ベースのオーディオ モデルに対する攻撃と比較して追加の技術的課題が存在するため、依然として限られています。
具体的には、離散化操作を伴う LALM のオーディオ エンコーダは、多くの場合、勾配粉砕を引き起こし、勾配ベースの最適化に依存した攻撃の有効性を妨げます。
LALM の動作の変動性により、効果的な (敵対的な) 最適化ターゲットの特定がさらに複雑になります。
さらに、敵対的なオーディオ波形にステルス性の制約を強制すると、縮小された非凸の実行可能な解決空間が導入され、最適化プロセスの課題がさらに強化されます。
これらの課題を克服するために、LALM に対する最初の脱獄フレームワークである AdvWave を開発しました。
勾配の粉砕に対処し、効果的なエンドツーエンドの勾配ベースの最適化を可能にするデュアルフェーズ最適化手法を提案します。
さらに、特定のクエリに対する LALM の応答パターンに基づいて敵対的最適化ターゲットを動的に調整する、適応型敵対的ターゲット検索アルゴリズムを開発します。
敵対的な音声が人間のリスナーにとって知覚的に自然なままであることを保証するために、一般的な都市音に似た敵対的なノイズを生成する、分類子に基づく最適化アプローチを設計します。
複数の高度な LALM に関する広範な評価により、AdvWave がベースライン手法を上回り、平均ジェイルブレイク攻撃成功率が 40% 高いことが実証されました。

要約(オリジナル)

Recent advancements in large audio-language models (LALMs) have enabled speech-based user interactions, significantly enhancing user experience and accelerating the deployment of LALMs in real-world applications. However, ensuring the safety of LALMs is crucial to prevent risky outputs that may raise societal concerns or violate AI regulations. Despite the importance of this issue, research on jailbreaking LALMs remains limited due to their recent emergence and the additional technical challenges they present compared to attacks on DNN-based audio models. Specifically, the audio encoders in LALMs, which involve discretization operations, often lead to gradient shattering, hindering the effectiveness of attacks relying on gradient-based optimizations. The behavioral variability of LALMs further complicates the identification of effective (adversarial) optimization targets. Moreover, enforcing stealthiness constraints on adversarial audio waveforms introduces a reduced, non-convex feasible solution space, further intensifying the challenges of the optimization process. To overcome these challenges, we develop AdvWave, the first jailbreak framework against LALMs. We propose a dual-phase optimization method that addresses gradient shattering, enabling effective end-to-end gradient-based optimization. Additionally, we develop an adaptive adversarial target search algorithm that dynamically adjusts the adversarial optimization target based on the response patterns of LALMs for specific queries. To ensure that adversarial audio remains perceptually natural to human listeners, we design a classifier-guided optimization approach that generates adversarial noise resembling common urban sounds. Extensive evaluations on multiple advanced LALMs demonstrate that AdvWave outperforms baseline methods, achieving a 40% higher average jailbreak attack success rate.

arxiv情報

著者 Mintong Kang,Chejian Xu,Bo Li
発行日 2024-12-11 18:30:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.SD, eess.AS パーマリンク