Compromesso! Italian Many-Shot Jailbreaks Undermine the Safety of Large Language Models

要約

多様な言語コミュニティとユーザーが大規模言語モデル (LLM) を採用するにつれて、言語を超えた安全性を評価することが重要になります。
LLM を安全にするための継続的な取り組みにもかかわらず、ジェイルブレイク (モデルが運用ガイドラインの範囲外で動作するように促される手法) によって LLM が安全でない動作をする可能性は依然としてあります。
しかし、LLM の安全性と脱獄に関する研究はこれまで主に英語に焦点を当てており、他の言語での LLM の安全性についての理解は限られています。
私たちは、モデルに危険なデモンストレーションを促して危険な行動を誘発するマルチショット脱獄の有効性をイタリア語で調査することで、このギャップを埋めることに貢献します。
分析を可能にするために、安全でないイタリア語の質問と回答のペアの新しいデータセットを作成します。
このデータセットを使用して、オープンウェイト LLM の 4 つのファミリーに明らかな安全性の脆弱性を特定します。
私たちは、安全でないデモンストレーションがほとんどない場合でもモデルが危険な動作を示し、さらに驚くべきことに、デモンストレーションが増えるとこの傾向が急速にエスカレートすることがわかりました。

要約(オリジナル)

As diverse linguistic communities and users adopt large language models (LLMs), assessing their safety across languages becomes critical. Despite ongoing efforts to make LLMs safe, they can still be made to behave unsafely with jailbreaking, a technique in which models are prompted to act outside their operational guidelines. Research on LLM safety and jailbreaking, however, has so far mostly focused on English, limiting our understanding of LLM safety in other languages. We contribute towards closing this gap by investigating the effectiveness of many-shot jailbreaking, where models are prompted with unsafe demonstrations to induce unsafe behaviour, in Italian. To enable our analysis, we create a new dataset of unsafe Italian question-answer pairs. With this dataset, we identify clear safety vulnerabilities in four families of open-weight LLMs. We find that the models exhibit unsafe behaviors even when prompted with few unsafe demonstrations, and — more alarmingly — that this tendency rapidly escalates with more demonstrations.

arxiv情報

著者 Fabio Pernisi,Dirk Hovy,Paul Röttger
発行日 2024-08-08 15:24:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク