Against All Odds: Overcoming Typology, Script, and Language Confusion in Multilingual Embedding Inversion Attacks

要約

大規模言語モデル (LLM) は、敵対的攻撃、バックドア攻撃、埋め込み反転攻撃などの侵入を通じて、サイバー攻撃者による悪意のある影響を受けやすくなります。
これに応えて、LLM セキュリティの急成長分野は、そのような脅威を研究し、防御することを目的としています。
これまでのところ、この分野の研究の大部分は単一言語の英語モデルに焦点を当ててきましたが、新たな研究では、多言語の LLM は単一言語の LLM よりもさまざまな攻撃に対して脆弱である可能性があることを示唆しています。
これまでの研究ではヨーロッパ言語の小さなサブセットに対する埋め込み反転を調査しましたが、これらの発見を異なる言語族の言語や異なる文字を使用した言語に推定することは困難です。
この目的を達成するために、私たちは反転攻撃の埋め込みというコンテキストで多言語 LLM のセキュリティを調査し、8 つの言語ファミリーと 12 の文字にまたがる 20 の言語にわたるクロスリンガルおよびクロススクリプト反転を調査します。
私たちの調査結果は、アラビア文字とキリル文字で書かれた言語は、インド・アーリア語族の言語と同様に、埋め込み反転に対して特に脆弱であることを示しています。
さらに、反転モデルは言語の混乱に悩まされる傾向があり、場合によっては攻撃の有効性を大幅に低下させることも観察されています。
したがって、私たちは反転モデルのこのボトルネックを体系的に調査し、攻撃者が利用する可能性のある予測可能なパターンを明らかにします。
最終的に、この研究は、多言語 LLM が直面する顕著なセキュリティ脆弱性についての現場の理解を深め、これらの攻撃による悪影響のリスクが最も高い言語に対する認識を高めることを目的としています。

要約(オリジナル)

Large Language Models (LLMs) are susceptible to malicious influence by cyber attackers through intrusions such as adversarial, backdoor, and embedding inversion attacks. In response, the burgeoning field of LLM Security aims to study and defend against such threats. Thus far, the majority of works in this area have focused on monolingual English models, however, emerging research suggests that multilingual LLMs may be more vulnerable to various attacks than their monolingual counterparts. While previous work has investigated embedding inversion over a small subset of European languages, it is challenging to extrapolate these findings to languages from different linguistic families and with differing scripts. To this end, we explore the security of multilingual LLMs in the context of embedding inversion attacks and investigate cross-lingual and cross-script inversion across 20 languages, spanning over 8 language families and 12 scripts. Our findings indicate that languages written in Arabic script and Cyrillic script are particularly vulnerable to embedding inversion, as are languages within the Indo-Aryan language family. We further observe that inversion models tend to suffer from language confusion, sometimes greatly reducing the efficacy of an attack. Accordingly, we systematically explore this bottleneck for inversion models, uncovering predictable patterns which could be leveraged by attackers. Ultimately, this study aims to further the field’s understanding of the outstanding security vulnerabilities facing multilingual LLMs and raise awareness for the languages most at risk of negative impact from these attacks.

arxiv情報

著者 Yiyi Chen,Russa Biswas,Heather Lent,Johannes Bjerva
発行日 2024-08-21 16:16:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク