Tune In, Act Up: Exploring the Impact of Audio Modality-Specific Edits on Large Audio Language Models in Jailbreak

要約

大規模言語モデル (LLM) は、さまざまな自然言語処理タスクにわたって優れたゼロショット パフォーマンスを示します。
マルチモーダル エンコーダの統合によりその機能が拡張され、ビジョン、オーディオ、テキストを処理するマルチモーダル大規模言語モデルの開発が可能になります。
ただし、これらのモデルはジェイルブレイクを通じて有害または不適切なコンテンツを生成するように操作される可能性があるため、これらの機能はセキュリティ上の重大な懸念も引き起こします。
広範な研究では、ジェイルブレイクにおけるテキストベースの LLM および大規模視覚言語モデルに対するモダリティ固有の入力編集の影響が調査されていますが、大規模音声言語モデル (LALM) に対する音声固有の編集の影響はまだ調査されていません。
したがって、この論文では、オーディオ固有の編集がジェイルブレイクに関する LALM の推論にどのような影響を与えるかを調査することで、このギャップに対処します。
トーン調整、単語強調、ノイズ挿入などのオーディオ モダリティ編集を可能にする Audio Editing Toolbox (AET) と、包括的なオーディオ ジェイルブレイク ベンチマークである Edited Audio Datasets (EAD) を紹介します。
また、さまざまなオーディオ編集下での堅牢性を評価するために、最先端の LALM の広範な評価も実施しています。
この研究は、LALM セキュリティにおけるオーディオ モダリティ インタラクションに関する将来の調査のための基礎を築きます。

要約(オリジナル)

Large Language Models (LLMs) demonstrate remarkable zero-shot performance across various natural language processing tasks. The integration of multimodal encoders extends their capabilities, enabling the development of Multimodal Large Language Models that process vision, audio, and text. However, these capabilities also raise significant security concerns, as these models can be manipulated to generate harmful or inappropriate content through jailbreak. While extensive research explores the impact of modality-specific input edits on text-based LLMs and Large Vision-Language Models in jailbreak, the effects of audio-specific edits on Large Audio-Language Models (LALMs) remain underexplored. Hence, this paper addresses this gap by investigating how audio-specific edits influence LALMs inference regarding jailbreak. We introduce the Audio Editing Toolbox (AET), which enables audio-modality edits such as tone adjustment, word emphasis, and noise injection, and the Edited Audio Datasets (EADs), a comprehensive audio jailbreak benchmark. We also conduct extensive evaluations of state-of-the-art LALMs to assess their robustness under different audio edits. This work lays the groundwork for future explorations on audio-modality interactions in LALMs security.

arxiv情報

著者 Erjia Xiao,Hao Cheng,Jing Shao,Jinhao Duan,Kaidi Xu,Le Yang,Jindong Gu,Renjing Xu
発行日 2025-01-23 15:51:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク