AI Control: Improving Safety Despite Intentional Subversion

要約

大規模言語モデル (LLM) がより強力になり、より自律的に展開されるにつれて、有害な結果を引き起こすことを防ぐことがますます重要になります。
研究者は、この目的のためにさまざまな安全技術を研究してきました。
モデルを使用して他のモデルの出力をレビューしたり、レッドチーム手法を使用して微妙な障害モードを表面化したりできます。
しかし、研究者は、モデル自体が意図的に技術を破壊しようとしている場合に、そのような技術が依然として安全性を確保するかどうかを評価していない。
この論文では、意図的な破壊に対して堅牢な安全技術のパイプライン (「プロトコル」) を開発および評価します。
強力だが信頼できないモデル (この場合は GPT-4) へのアクセス、強力ではない信頼できるモデル (この場合は GPT-3.5) へのアクセスを使用して、一連のプログラミングの問題を解決するシナリオを調査します。
、そして質の高い信頼できる労働力へのアクセスが制限されています。
私たちは、バックドアを含むソリューションを決して送信しないことを目的としたプロトコルを調査します。ここでは、バックドアをテスト ケースで捕捉されない論理エラーとして運用します。
私たちはさまざまなプロトコルを調査し、信頼できないモデルがそれらを破壊するために使用できる戦略に対してそれぞれをテストします。
プロトコルの 1 つは、信頼できる編集と呼ばれるものです。
このプロトコルは、まず GPT-4 にコードを書くように依頼し、次に GPT-3.5 にそのコードの不審性を評価するように依頼します。
コードが疑わしいしきい値を下回る場合、コードは送信されます。
それ以外の場合、GPT-3.5 はソリューションを編集して疑わしいと思われる部分を削除し、編集したコードを送信します。
もう 1 つのプロトコルは、信頼できないモニタリングです。
このプロトコルは、GPT-4 にコードを書くように要求し、GPT-4 インスタンスが共謀するのを防ぐためのさまざまな技術を使用して、コードがバックドアであるかどうかを GPT-4 の別のインスタンスに尋ねます。
これらのプロトコルは、単純なベースラインで大幅に改善されます。

要約(オリジナル)

As large language models (LLMs) become more powerful and are deployed more autonomously, it will be increasingly important to prevent them from causing harmful outcomes. Researchers have investigated a variety of safety techniques for this purpose, e.g. using models to review the outputs of other models, or red-teaming techniques to surface subtle failure modes. However, researchers have not evaluated whether such techniques still ensure safety if the model is itself intentionally trying to subvert them. In this paper, we develop and evaluate pipelines of safety techniques (‘protocols’) that are robust to intentional subversion. We investigate a scenario in which we want to solve a sequence of programming problems, using access to a powerful but untrusted model (in our case, GPT-4), access to a less powerful trusted model (in our case, GPT-3.5), and limited access to high-quality trusted labor. We investigate protocols that aim to never submit solutions containing backdoors, which we operationalize here as logical errors that are not caught by test cases. We investigate a range of protocols and test each against strategies that the untrusted model could use to subvert them. One protocol is what we call trusted editing. This protocol first asks GPT-4 to write code, and then asks GPT-3.5 to rate the suspiciousness of that code. If the code is below some suspiciousness threshold, it is submitted. Otherwise, GPT-3.5 edits the solution to remove parts that seem suspicious and then submits the edited code. Another protocol is untrusted monitoring. This protocol asks GPT-4 to write code, and then asks another instance of GPT-4 whether the code is backdoored, using various techniques to prevent the GPT-4 instances from colluding. These protocols improve substantially on simple baselines.

arxiv情報

著者 Ryan Greenblatt,Buck Shlegeris,Kshitij Sachan,Fabien Roger
発行日 2024-01-05 12:41:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク