The Sample Complexity of Online Strategic Decision Making with Information Asymmetry and Knowledge Transportability

要約

情報の非対称性は、マルチエージェントシステムの広範な特徴であり、特に経済学や社会科学で明らかです。
これらの設定では、エージェントは個人情報に基づいてアクションを調整して、報酬を最大化します。
これらの戦略的行動は、多くの場合、交絡変数による複雑さをもたらします。
同時に、知識の輸送性は、ターゲット環境で実験を行うことの難しさから生じる別の重要な課題を提起します。
経験的データがより容易に利用できる環境から知識を転送する必要があります。
これらの背景に対して、このペーパーでは、オンライン学習における基本的な質問を探ります。NONI.I.Dを使用できますか。
知識移転を必要とする場合でも、交絡因子について学ぶための行動?
情報の非対称性の下でシステムのダイナミクスを正確に識別し、オンライン戦略的相互作用モデル内で編成された強化学習における知識移転の課題を効果的にナビゲートするように設計されたサンプル効率の高いアルゴリズムを提示します。
私たちの方法は、$ o(1/\ epsilon^2)$のタイトなサンプルの複雑さで$ \ epsilon $ -optimalポリシーの学習を実現します。

要約(オリジナル)

Information asymmetry is a pervasive feature of multi-agent systems, especially evident in economics and social sciences. In these settings, agents tailor their actions based on private information to maximize their rewards. These strategic behaviors often introduce complexities due to confounding variables. Simultaneously, knowledge transportability poses another significant challenge, arising from the difficulties of conducting experiments in target environments. It requires transferring knowledge from environments where empirical data is more readily available. Against these backdrops, this paper explores a fundamental question in online learning: Can we employ non-i.i.d. actions to learn about confounders even when requiring knowledge transfer? We present a sample-efficient algorithm designed to accurately identify system dynamics under information asymmetry and to navigate the challenges of knowledge transfer effectively in reinforcement learning, framed within an online strategic interaction model. Our method provably achieves learning of an $\epsilon$-optimal policy with a tight sample complexity of $O(1/\epsilon^2)$.

arxiv情報

著者 Jiachen Hu,Rui Ai,Han Zhong,Xiaoyu Chen,Liwei Wang,Zhaoran Wang,Zhuoran Yang
発行日 2025-06-11 17:06:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク