要約
大規模言語モデル (LLM) の機能がますます高まるにつれて、LLM が意図的に安全対策をバイパスしようとした場合でも、安全対策が有効であり続けるかどうかを評価することが賢明です。
以前の研究では、信頼できないモデル (つまり、安全対策をバイパスしようとしている可能性のあるモデル) の展開戦略をテストするための敵対的フレームワークである制御評価が導入されました。
これまでの研究では単一の失敗は許容できないものとして扱われていましたが、私たちは「分散脅威設定」、つまり単一のアクションが壊滅的なものではなく、単一のアクションが不整合の圧倒的な証拠を提供しない設定で制御評価を実行します。
私たちは、適応マクロ プロトコルを使用してマイクロ プロトコルを選択する 2 レベルの展開フレームワークを使用して、この問題に取り組みます。
マイクロプロトコルは単一のタスクで動作し、機能は劣るものの広範囲にテストされた (信頼できる) モデルを使用して、信頼できないモデルを利用して監視します。
一方、マクロ プロトコルは、過去のアクションに基づいて信頼できないモデルの調整に関する適応的な信頼性を維持し、それを使用して、より安全なマイクロ プロトコルとよりリスクの高いマイクロ プロトコルのどちらかを選択します。
コード生成テストベッドでメソッドを評価します。このテストベッドでは、赤色のチームが、青色のチームによってデプロイが保護されている LLM を使用して、巧妙にバックドアされたコードを生成しようとします。
安全性 (バックドアのないソリューションの数) と有用性 (正しいソリューションの数) のパレート フロンティアをプロットします。
一定の有用性レベルにおいて、当社の適応型展開戦略は、非適応型ベースラインと比較してバックドアの数を 80% 削減します。
要約(オリジナル)
As large language models (LLMs) become increasingly capable, it is prudent to assess whether safety measures remain effective even if LLMs intentionally try to bypass them. Previous work introduced control evaluations, an adversarial framework for testing deployment strategies of untrusted models (i.e., models which might be trying to bypass safety measures). While prior work treats a single failure as unacceptable, we perform control evaluations in a ‘distributed threat setting’ — a setting where no single action is catastrophic and no single action provides overwhelming evidence of misalignment. We approach this problem with a two-level deployment framework that uses an adaptive macro-protocol to choose between micro-protocols. Micro-protocols operate on a single task, using a less capable, but extensively tested (trusted) model to harness and monitor the untrusted model. Meanwhile, the macro-protocol maintains an adaptive credence on the untrusted model’s alignment based on its past actions, using it to pick between safer and riskier micro-protocols. We evaluate our method in a code generation testbed where a red team attempts to generate subtly backdoored code with an LLM whose deployment is safeguarded by a blue team. We plot Pareto frontiers of safety (# of non-backdoored solutions) and usefulness (# of correct solutions). At a given level of usefulness, our adaptive deployment strategy reduces the number of backdoors by 80% compared to non-adaptive baselines.
arxiv情報
著者 | Jiaxin Wen,Vivek Hebbar,Caleb Larson,Aryan Bhatt,Ansh Radhakrishnan,Mrinank Sharma,Henry Sleight,Shi Feng,He He,Ethan Perez,Buck Shlegeris,Akbir Khan |
発行日 | 2024-11-26 18:58:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google