Learning to Steer Markovian Agents under Model Uncertainty

要約

適応する人口に対するインセンティブを設計することは、さまざまな経済用途やその他の分野で普遍的な問題です。
この研究では、エージェントの基礎となる学習ダイナミクスについての事前知識を持たずに、マルチエージェント システムを望ましいポリシーに向けて誘導するための追加の報酬を設計する方法を研究します。
既存の研究の制限を動機として、\emph{マルコフエージェント}と呼ばれる学習ダイナミクスの新しい一般的なカテゴリを検討します。
ステアリング問題に対して、モデルベースの非エピソード強化学習 (RL) 定式化を導入します。
重要なのは、エージェントの学習ダイナミクスに関するモデル固有の不確実性を処理する \emph{履歴依存} ステアリング戦略の学習に焦点を当てていることです。
妥当なコストで良好なステアリング結果を達成するという要望をコード化する新しい目的関数を導入します。
理論的には、エージェントを望ましいポリシーに導くためのステアリング戦略が存在する条件を特定します。
私たちの理論的貢献を補完するために、私たちは目的を近似的に解決するための経験的アルゴリズムを提供し、歴史に依存した戦略を学習する際の課題に効果的に取り組みます。
私たちは経験的評価を通じてアルゴリズムの有効性を実証します。

要約(オリジナル)

Designing incentives for an adapting population is a ubiquitous problem in a wide array of economic applications and beyond. In this work, we study how to design additional rewards to steer multi-agent systems towards desired policies \emph{without} prior knowledge of the agents’ underlying learning dynamics. Motivated by the limitation of existing works, we consider a new and general category of learning dynamics called \emph{Markovian agents}. We introduce a model-based non-episodic Reinforcement Learning (RL) formulation for our steering problem. Importantly, we focus on learning a \emph{history-dependent} steering strategy to handle the inherent model uncertainty about the agents’ learning dynamics. We introduce a novel objective function to encode the desiderata of achieving a good steering outcome with reasonable cost. Theoretically, we identify conditions for the existence of steering strategies to guide agents to the desired policies. Complementing our theoretical contributions, we provide empirical algorithms to approximately solve our objective, which effectively tackles the challenge in learning history-dependent strategies. We demonstrate the efficacy of our algorithms through empirical evaluations.

arxiv情報

著者 Jiawei Huang,Vinzenz Thoma,Zebang Shen,Heinrich H. Nax,Niao He
発行日 2024-10-07 16:25:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, stat.ML パーマリンク