Learning and Calibrating Heterogeneous Bounded Rational Market Behaviour with Multi-Agent Reinforcement Learning

要約

エージェントベース モデル (ABM) は、従来の平衡分析とは互換性のないさまざまな現実世界の現象をモデル化するのに有望であることが示されています。
ただし、重大な懸念事項は、ABM の動作ルールを手動で定義することです。
マルチエージェント強化学習 (MARL) の最近の開発は、最適化の観点からこの問題に対処する方法を提供し、エージェントがその有用性を最大化するよう努め、手動のルール指定の必要性を排除します。
この学習中心のアプローチは、合理的な効用最大化エージェントの使用を通じて、確立された経済および財務モデルと一致しています。
ただし、この表現は、制限された合理性とエージェントの異質性から生じる現実的なダイナミクスをモデル化できるという、ABM の基本的な動機から逸脱しています。
2 つのアプローチ間のこの明らかな相違を解決するために、MARL フレームワーク内で異種の処理制約のあるエージェントを表現するための新しい手法を提案します。
提案されたアプローチは、エージェントをさまざまな程度の戦略的スキルを持つ制約付きの最適化者として扱い、厳密な効用の最大化からの脱却を可能にします。
行動は、アクションの可能性を調整するためのポリシー勾配を使用したシミュレーションを繰り返すことで学習されます。
効率的な計算を可能にするために、エージェントのスキル レベルの分布を使用したパラメータ化された共有ポリシー学習を使用します。
共有ポリシー学習により、エージェントが個々のポリシーを学習する必要がなくなりますが、それでもさまざまな制限された合理的な動作が可能になります。
さまざまな標準的な $n$ エージェント設定の実世界データを使用してモデルの有効性を検証し、予測能力が大幅に向上していることを実証します。

要約(オリジナル)

Agent-based models (ABMs) have shown promise for modelling various real world phenomena incompatible with traditional equilibrium analysis. However, a critical concern is the manual definition of behavioural rules in ABMs. Recent developments in multi-agent reinforcement learning (MARL) offer a way to address this issue from an optimisation perspective, where agents strive to maximise their utility, eliminating the need for manual rule specification. This learning-focused approach aligns with established economic and financial models through the use of rational utility-maximising agents. However, this representation departs from the fundamental motivation for ABMs: that realistic dynamics emerging from bounded rationality and agent heterogeneity can be modelled. To resolve this apparent disparity between the two approaches, we propose a novel technique for representing heterogeneous processing-constrained agents within a MARL framework. The proposed approach treats agents as constrained optimisers with varying degrees of strategic skills, permitting departure from strict utility maximisation. Behaviour is learnt through repeated simulations with policy gradients to adjust action likelihoods. To allow efficient computation, we use parameterised shared policy learning with distributions of agent skill levels. Shared policy learning avoids the need for agents to learn individual policies yet still enables a spectrum of bounded rational behaviours. We validate our model’s effectiveness using real-world data on a range of canonical $n$-agent settings, demonstrating significantly improved predictive capability.

arxiv情報

著者 Benjamin Patrick Evans,Sumitra Ganesh
発行日 2024-02-01 17:21:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.GT, cs.LG, cs.MA, econ.GN, q-fin.EC パーマリンク