要約
基盤モデルの脱獄に関する 2 つのパラドックスを紹介します。1 つ目は、完璧な脱獄分類器を構築することは不可能であり、2 つ目は、より弱いモデルは、より強力な (パレート支配的な意味で) モデルが脱獄されているかどうかを一貫して検出できないことです。
これらのパラドックスに対する正式な証明と、これを実証するための Llama と GPT4-o に関する短いケーススタディを提供します。
これらの結果のより広範な理論的および実践的な影響について議論します。
要約(オリジナル)
We introduce two paradoxes concerning jailbreak of foundation models: First, it is impossible to construct a perfect jailbreak classifier, and second, a weaker model cannot consistently detect whether a stronger (in a pareto-dominant sense) model is jailbroken or not. We provide formal proofs for these paradoxes and a short case study on Llama and GPT4-o to demonstrate this. We discuss broader theoretical and practical repercussions of these results.
arxiv情報
著者 | Abhinav Rao,Monojit Choudhury,Somak Aditya |
発行日 | 2024-06-18 15:14:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google