Avoiding Obfuscation with Prover-Estimator Debate

要約

強力なAIシステムをトレーニングして、ますます複雑なタスクで正確な人間の監督を提供する能力にかかっている希望の行動を示す。
この問題に対する有望なアプローチは、特定の問題に対する正しい解決策についての議論で2人の競合するAIの力を活用することにより、人間の判断を増幅することです。
以前の理論的研究は、AI議論の複雑さの理論的形式化を提供し、可能な限り複雑なクラスとしての複雑なクラスとしての人間の判断の正しさを保証するAI議論のプロトコルを設計する問題を提起しました。
討論者が複雑な問題をより単純なサブ問題に分解する再帰的議論は、議論で正確に判断できる問題のクラスを増やすことを約束します。
ただし、再帰的な議論のための既存のプロトコルは、難読化された議論の問題に遭遇します。不正な討論者は、正直な相手に計算上の扱いにくい問題を解決するために強制的に勝つために強制する計算上効率的な戦略を使用できます。
この問題は、特定の安定性の仮定の下で、相手に匹敵する計算効率を必要とする戦略で正直な討論者が勝つことができることを保証できる新しい再帰的討論プロトコルで緩和します。

要約(オリジナル)

Training powerful AI systems to exhibit desired behaviors hinges on the ability to provide accurate human supervision on increasingly complex tasks. A promising approach to this problem is to amplify human judgement by leveraging the power of two competing AIs in a debate about the correct solution to a given problem. Prior theoretical work has provided a complexity-theoretic formalization of AI debate, and posed the problem of designing protocols for AI debate that guarantee the correctness of human judgements for as complex a class of problems as possible. Recursive debates, in which debaters decompose a complex problem into simpler subproblems, hold promise for growing the class of problems that can be accurately judged in a debate. However, existing protocols for recursive debate run into the obfuscated arguments problem: a dishonest debater can use a computationally efficient strategy that forces an honest opponent to solve a computationally intractable problem to win. We mitigate this problem with a new recursive debate protocol that, under certain stability assumptions, ensures that an honest debater can win with a strategy requiring computational efficiency comparable to their opponent.

arxiv情報

著者 Jonah Brown-Cohen,Geoffrey Irving,Georgios Piliouras
発行日 2025-06-16 15:37:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CC, cs.DS パーマリンク