Jailbreaking LLMs with Arabic Transliteration and Arabizi

要約

本研究では、「脱獄」攻撃に対する大規模言語モデル(LLM)の潜在的な脆弱性を、特にアラビア語とその様々な形式に焦点を当てて明らかにする。ほとんどの研究は英語ベースのプロンプト操作に集中しているが、我々の調査はアラビア語の調査へと範囲を広げている。当初、標準アラビア語でAdvBenchベンチマークをテストしたところ、接頭辞注入のようなプロンプト操作テクニックを用いても、LLMを刺激して安全でないコンテンツを生成させるには不十分であることがわかった。しかし、アラビア語の音訳とチャットスピーク(またはアラビズ)を使用すると、OpenAI GPT-4やAnthropic Claude 3 Sonnetのようなプラットフォームで安全でないコンテンツを生成できることがわかりました。私たちの発見は、アラビア語とその様々な形式を使用することで、隠されたままになっている可能性のある情報を暴露し、脱獄攻撃のリスクを高める可能性があることを示唆しています。この暴露は、モデルが学習した特定の単語との関連によるものである可能性があり、すべての言語形式にわたってより包括的な安全トレーニングの必要性を強調するものであるという仮説を立てた。

要約(オリジナル)

This study identifies the potential vulnerabilities of Large Language Models (LLMs) to ‘jailbreak’ attacks, specifically focusing on the Arabic language and its various forms. While most research has concentrated on English-based prompt manipulation, our investigation broadens the scope to investigate the Arabic language. We initially tested the AdvBench benchmark in Standardized Arabic, finding that even with prompt manipulation techniques like prefix injection, it was insufficient to provoke LLMs into generating unsafe content. However, when using Arabic transliteration and chatspeak (or arabizi), we found that unsafe content could be produced on platforms like OpenAI GPT-4 and Anthropic Claude 3 Sonnet. Our findings suggest that using Arabic and its various forms could expose information that might remain hidden, potentially increasing the risk of jailbreak attacks. We hypothesize that this exposure could be due to the model’s learned connection to specific words, highlighting the need for more comprehensive safety training across all language forms.

arxiv情報

著者 Mansour Al Ghanim,Saleh Almohaimeed,Mengxin Zheng,Yan Solihin,Qian Lou
発行日 2024-10-03 17:10:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク