Scaling Laws For Scalable Oversight

要約

スケーラブルな監視、より弱いAIシステムがより強力なシステムを監督するプロセスは、将来の緊密なシステムを制御するための重要な戦略として提案されています。
ただし、スケーラブルな監視自体がどのようにスケーリングできるかはまだ不明です。
このギャップに対処するために、監督者の能力と監督されているシステムの関数としての監視の成功の確率を定量化するフレームワークを提案します。
具体的には、私たちのフレームワークは、能力が不一致したプレーヤー間のゲームとしての監視をモデル化しています。
プレーヤーは、一般的な知能の区分的線形関数である監視固有のELOスコアを持ち、2つのプラトーがタスクの無能さとタスクの飽和に対応しています。
ゲームNIMの変更されたバージョンでフレームワークを検証し、マフィア、討論、バックドアコード、WarGamesの4つの監視ゲームに適用します。
ゲームごとに、ドメインのパフォーマンスが一般的なAIシステム機能に依存する方法を概算するスケーリング法則を見つけます。
次に、ネストされたスケーラブル監視(NSO)の理論的研究で調査結果を構築します。これは、信頼できるモデルが信頼されていない強力なモデルを監督し、次のステップで信頼できるモデルになるプロセスです。
NSOが成功する条件を特定し、監視の成功の確率を最大化するために、最適な数の監視レベルの数値的に(場合によっては分析的に)導き出します。
また、4つの監視ゲームに理論を適用します。これには、400の一般的なELOギャップでのNSO成功率は、マフィアで13.5%、議論で51.7%、バックドアコードで10.0%、ウォーゲームで9.4%であることがわかります。
これらのレートは、より強力なシステムを監督するとさらに低下します。

要約(オリジナル)

Scalable oversight, the process by which weaker AI systems supervise stronger ones, has been proposed as a key strategy to control future superintelligent systems. However, it is still unclear how scalable oversight itself scales. To address this gap, we propose a framework that quantifies the probability of successful oversight as a function of the capabilities of the overseer and the system being overseen. Specifically, our framework models oversight as a game between capability-mismatched players; the players have oversight-specific Elo scores that are a piecewise-linear function of their general intelligence, with two plateaus corresponding to task incompetence and task saturation. We validate our framework with a modified version of the game Nim and then apply it to four oversight games: Mafia, Debate, Backdoor Code and Wargames. For each game, we find scaling laws that approximate how domain performance depends on general AI system capability. We then build on our findings in a theoretical study of Nested Scalable Oversight (NSO), a process in which trusted models oversee untrusted stronger models, which then become the trusted models in the next step. We identify conditions under which NSO succeeds and derive numerically (and in some cases analytically) the optimal number of oversight levels to maximize the probability of oversight success. We also apply our theory to our four oversight games, where we find that NSO success rates at a general Elo gap of 400 are 13.5% for Mafia, 51.7% for Debate, 10.0% for Backdoor Code, and 9.4% for Wargames; these rates decline further when overseeing stronger systems.

arxiv情報

著者 Joshua Engels,David D. Baek,Subhash Kantamneni,Max Tegmark
発行日 2025-05-09 16:30:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG パーマリンク