Playing Large Games with Oracles and AI Debate

要約

非常に多くのアクションを伴う繰り返しゲームでの後悔の最小化を考慮します。
このようなゲームは、議論による AI の安全性の設定に固有のものであり、より一般的には、動作が言語ベースのゲームです。
オンライン ゲームをプレイするための既存のアルゴリズムでは、アクションの数について反復ごとの計算多項式が必要ですが、大規模なゲームでは法外な場合があります。
したがって、オラクルは AI エージェントへのアクセスを自然にモデル化するため、オラクルベースのアルゴリズムを検討します。
オラクルアクセスを使用すると、内部および外部の後悔がいつ効率的に最小限に抑えられるかを特徴づけます。
我々は、内部リグレス最小化のための新しい効率的なアルゴリズムを提供します。そのリグレスと反復ごとの計算は、アクションの数に対数的に依存します。
最後に、アルゴリズム分析からの洞察の利点を示す、AI Safety via Debate の設定での実験を終わります。

要約(オリジナル)

We consider regret minimization in repeated games with a very large number of actions. Such games are inherent in the setting of AI safety via debate, and more generally games whose actions are language-based. Existing algorithms for online game playing require per-iteration computation polynomial in the number of actions, which can be prohibitive for large games. We thus consider oracle-based algorithms, as oracles naturally model access to AI agents. With oracle access, we characterize when internal and external regret can be minimized efficiently. We give a novel efficient algorithm for internal regret minimization whose regret and per-iteration computation depend logarithmically on the number of actions. We conclude with experiments in the setting of AI Safety via Debate that shows the benefit of insights from our algorithmic analysis.

arxiv情報

著者 Xinyi Chen,Angelica Chen,Dean Foster,Elad Hazan
発行日 2024-02-21 16:03:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT パーマリンク