要約
言語モデルが ASCII アートを解釈できないことを利用した、新しい敵対的攻撃ファミリーを紹介します。
これらの攻撃を評価するために、私たちは ToxASCII ベンチマークを提案し、2 つのカスタム ASCII アート フォントを開発しました。1 つは特別なトークンを利用し、もう 1 つはテキストで埋められた文字の形状を使用します。
私たちの攻撃は、OpenAI の o1-preview や LLaMA 3.1 を含む 10 のモデル全体で、完璧な 1.0 の攻撃成功率を達成しています。
警告: この文書には、研究目的で使用される有害な言語の例が含まれています。
要約(オリジナル)
We introduce a novel family of adversarial attacks that exploit the inability of language models to interpret ASCII art. To evaluate these attacks, we propose the ToxASCII benchmark and develop two custom ASCII art fonts: one leveraging special tokens and another using text-filled letter shapes. Our attacks achieve a perfect 1.0 Attack Success Rate across ten models, including OpenAI’s o1-preview and LLaMA 3.1. Warning: this paper contains examples of toxic language used for research purposes.
arxiv情報
著者 | Sergey Berezin,Reza Farahbakhsh,Noel Crespi |
発行日 | 2024-09-30 17:18:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google