要約
共通の目的を達成するためにエージェント間の協力を達成および維持することは、マルチエージェント強化学習 (MARL) の中心的な目標の 1 つです。
それにもかかわらず、現実世界の多くのシナリオでは、個別にトレーニングされた専門のエージェントが共有環境に展開されるか、環境が複数の目的を達成するために異なる共存する当事者によって必要とされます。
専門分野と目的の間のこれらの変動は、最終的にすべての関係者が途方に暮れる社会的ジレンマにつながる複雑な動機を引き起こす可能性があります.
この問題を解決するために、インセンティブ Q-Flow (IQ-Flow) アルゴリズムを提案します。このアルゴリズムは、インセンティブ レギュレータ エージェントを使用してシステムの報酬設定を変更し、協調ポリシーがエージェントの利己的なポリシーにも対応するようにします。
利己的なエージェントにインセンティブを与えることを学習する既存の方法とは異なり、IQ-Flow はエージェントのポリシーや学習アルゴリズムについて仮定を行わないため、開発されたフレームワークをより幅広いアプリケーションに一般化できます。
IQ-Flow は、他のエージェントから提供されたデータを使用して、学習したポリシーの最適性をオフラインで評価し、協調的で利己的なポリシーを決定します。
次に、IQ-Flow はメタ勾配学習を使用して、与えられたインセンティブに応じてポリシー評価がどのように変化するかを推定し、協調目的と利己的目的の貪欲なポリシーが同じアクションをもたらすようにインセンティブを修正します。
反復マトリックス ゲームにおける IQ-Flow の操作上の特徴を示します。
IQ-Flow が、エスケープ ルームおよび 2 プレーヤー クリーンアップ環境で最先端のインセンティブ デザイン アルゴリズムよりも優れていることを実証します。
さらに、事前トレーニング済みの IQ-Flow メカニズムが、2 プレーヤー クリーンアップ環境で共有報酬セットアップのパフォーマンスを大幅に上回ることを示しています。
要約(オリジナル)
Achieving and maintaining cooperation between agents to accomplish a common objective is one of the central goals of Multi-Agent Reinforcement Learning (MARL). Nevertheless in many real-world scenarios, separately trained and specialized agents are deployed into a shared environment, or the environment requires multiple objectives to be achieved by different coexisting parties. These variations among specialties and objectives are likely to cause mixed motives that eventually result in a social dilemma where all the parties are at a loss. In order to resolve this issue, we propose the Incentive Q-Flow (IQ-Flow) algorithm, which modifies the system’s reward setup with an incentive regulator agent such that the cooperative policy also corresponds to the self-interested policy for the agents. Unlike the existing methods that learn to incentivize self-interested agents, IQ-Flow does not make any assumptions about agents’ policies or learning algorithms, which enables the generalization of the developed framework to a wider array of applications. IQ-Flow performs an offline evaluation of the optimality of the learned policies using the data provided by other agents to determine cooperative and self-interested policies. Next, IQ-Flow uses meta-gradient learning to estimate how policy evaluation changes according to given incentives and modifies the incentive such that the greedy policy for cooperative objective and self-interested objective yield the same actions. We present the operational characteristics of IQ-Flow in Iterated Matrix Games. We demonstrate that IQ-Flow outperforms the state-of-the-art incentive design algorithm in Escape Room and 2-Player Cleanup environments. We further demonstrate that the pretrained IQ-Flow mechanism significantly outperforms the performance of the shared reward setup in the 2-Player Cleanup environment.
arxiv情報
著者 | Bengisu Guresti,Abdullah Vanlioglu,Nazim Kemal Ure |
発行日 | 2023-02-28 14:44:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google