Negotiated Reasoning: On Provably Addressing Relative Over-Generalization

要約

過剰な一般化は認知科学における厄介な問題であり、人々は過去の経験のために過度に慎重になる可能性があります。
マルチエージェント強化学習 (MARL) のエージェントも、人間と同様に相対的な過剰一般化 (RO) に悩まされ、次善の協力に固執することがわかっています。
最近の方法では、エージェントに推論能力を割り当てることで RO をアルゴリズム的および経験的に軽減できることが示されていますが、RO の理論的理解が不足しており、ましてや RO が発生しないと証明できる方法の設計は言うまでもありません。
この論文は、MARL 法が特定の条件下で一貫した推論要件を満たしている場合に RO を回避できることを初めて証明します。
次に、交渉推論と呼ばれる新しい推論フレームワークを導入します。これは、最初に理論的根拠を備えた推論と RO の間の接続を構築します。
その後、インスタンス化されたアルゴリズムであるスタイン変分交渉推論 (SVNR) を提案します。このアルゴリズムは、スタイン変分勾配降下法を使用して、最大エントロピー ポリシーの反復下で MARL の RO を確実に回避するネゴシエーション ポリシーを導出します。
この方法は、償却学習のためにニューラル ネットワークを使用してさらにパラメータ化され、計算が効率化されます。
RO が課題となる多くの環境での数値実験により、RO に対処する際の最先端の方法と比較した SVNR の優位性と効率性が実証されています。

要約(オリジナル)

Over-generalization is a thorny issue in cognitive science, where people may become overly cautious due to past experiences. Agents in multi-agent reinforcement learning (MARL) also have been found to suffer relative over-generalization (RO) as people do and stuck to sub-optimal cooperation. Recent methods have shown that assigning reasoning ability to agents can mitigate RO algorithmically and empirically, but there has been a lack of theoretical understanding of RO, let alone designing provably RO-free methods. This paper first proves that RO can be avoided when the MARL method satisfies a consistent reasoning requirement under certain conditions. Then we introduce a novel reasoning framework, called negotiated reasoning, that first builds the connection between reasoning and RO with theoretical justifications. After that, we propose an instantiated algorithm, Stein variational negotiated reasoning (SVNR), which uses Stein variational gradient descent to derive a negotiation policy that provably avoids RO in MARL under maximum entropy policy iteration. The method is further parameterized with neural networks for amortized learning, making computation efficient. Numerical experiments on many RO-challenged environments demonstrate the superiority and efficiency of SVNR compared to state-of-the-art methods in addressing RO.

arxiv情報

著者 Junjie Sheng,Wenhao Li,Bo Jin,Hongyuan Zha,Jun Wang,Xiangfeng Wang
発行日 2023-06-08 16:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA パーマリンク