SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models

要約

音声指示に従い、関連するテキスト応答を生成できる統合音声モデルおよび大規模言語モデル (SLM) が最近人気を集めています。
ただし、これらのモデルの安全性と堅牢性は依然としてほとんど不明です。
この研究では、このような命令に従う音声言語モデルの、敵対的な攻撃やジェイルブレイクに対する潜在的な脆弱性を調査します。
具体的には、人間の介入なしにホワイトボックス攻撃設定とブラックボックス攻撃設定の両方で SLM をジェイルブレイクするための敵対的な例を生成できるアルゴリズムを設計します。
さらに、このような脱獄攻撃を阻止するための対策を提案します。
音声指示を含む対話データでトレーニングされた当社のモデルは、音声による質問応答タスクで最先端のパフォーマンスを達成し、安全性と有用性の両方の指標で 80% 以上のスコアを獲得しました。
安全ガードレールにもかかわらず、ジェイルブレイクの実験では、敵対的な摂動や転送攻撃に対する SLM の脆弱性が実証されており、12 の異なる有害カテゴリにわたる慎重に設計された有害な質問のデータセットで評価した場合、平均攻撃成功率はそれぞれ 90% と 10% でした。
ただし、私たちが提案した対策によって攻撃の成功率が大幅に低下することを実証します。

要約(オリジナル)

Integrated Speech and Large Language Models (SLMs) that can follow speech instructions and generate relevant text responses have gained popularity lately. However, the safety and robustness of these models remains largely unclear. In this work, we investigate the potential vulnerabilities of such instruction-following speech-language models to adversarial attacks and jailbreaking. Specifically, we design algorithms that can generate adversarial examples to jailbreak SLMs in both white-box and black-box attack settings without human involvement. Additionally, we propose countermeasures to thwart such jailbreaking attacks. Our models, trained on dialog data with speech instructions, achieve state-of-the-art performance on spoken question-answering task, scoring over 80% on both safety and helpfulness metrics. Despite safety guardrails, experiments on jailbreaking demonstrate the vulnerability of SLMs to adversarial perturbations and transfer attacks, with average attack success rates of 90% and 10% respectively when evaluated on a dataset of carefully designed harmful questions spanning 12 different toxic categories. However, we demonstrate that our proposed countermeasures reduce the attack success significantly.

arxiv情報

著者 Raghuveer Peri,Sai Muralidhar Jayanthi,Srikanth Ronanki,Anshu Bhatia,Karel Mundnich,Saket Dingliwal,Nilaksh Das,Zejiang Hou,Goeric Huybrechts,Srikanth Vishnubhotla,Daniel Garcia-Romero,Sundararajan Srinivasan,Kyu J Han,Katrin Kirchhoff
発行日 2024-05-14 04:51:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク