Synthesis of Reward Machines for Multi-Agent Equilibrium Design (Full Version)

要約

メカニズムの設計は、望ましい結果を達成するためにゲームを設計するための確立されたゲーム理論のパラダイムです。
この文書では、密接に関連しているが別個の概念である平衡設計について説明します。
機構設計とは異なり、平衡設計における設計者の権限はより制約されています。
彼女は、ゲームをゼロから作成する能力がなければ、特定の結果を達成するために特定のゲームのインセンティブ構造を変更することしかできません。
私たちは、報酬マシンとして知られる動的インセンティブ構造を使用した均衡設計の問題を研究します。
ゲーム モデルには重み付けされた同時ゲーム構造を使用し、(プレイヤーとデザイナーの) 目標は平均利得目標として定義されます。
デザイナーの目標を最適化する方法で報酬を割り当てる動的なインセンティブを表現するために報酬マシンを使用する方法を示します。
また、フレームワーク内の主要な決定問題であるペイオフ改善問題も紹介します。
この問題は本質的に、設計者の利益を所定のしきい値を超えて改善できる動的なインセンティブ (何らかの報酬マシンで表される) が存在するかどうかを問うものです。
この問題には、強いものと弱いものという 2 つのバリエーションがあります。
NP オラクルを備えたチューリング マシンを使用して、両方を多項式時間で解くことができることを示します。
さらに、これらのバリアントは NP ハードま​​たは coNP ハードのいずれかであることも確立します。
最後に、対応する報酬マシンが存在する場合にそれを合成する方法を示します。

要約(オリジナル)

Mechanism design is a well-established game-theoretic paradigm for designing games to achieve desired outcomes. This paper addresses a closely related but distinct concept, equilibrium design. Unlike mechanism design, the designer’s authority in equilibrium design is more constrained; she can only modify the incentive structures in a given game to achieve certain outcomes without the ability to create the game from scratch. We study the problem of equilibrium design using dynamic incentive structures, known as reward machines. We use weighted concurrent game structures for the game model, with goals (for the players and the designer) defined as mean-payoff objectives. We show how reward machines can be used to represent dynamic incentives that allocate rewards in a manner that optimises the designer’s goal. We also introduce the main decision problem within our framework, the payoff improvement problem. This problem essentially asks whether there exists a dynamic incentive (represented by some reward machine) that can improve the designer’s payoff by more than a given threshold value. We present two variants of the problem: strong and weak. We demonstrate that both can be solved in polynomial time using a Turing machine equipped with an NP oracle. Furthermore, we also establish that these variants are either NP-hard or coNP-hard. Finally, we show how to synthesise the corresponding reward machine if it exists.

arxiv情報

著者 Muhammad Najib,Giuseppe Perelli
発行日 2024-08-19 15:17:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.MA パーマリンク