Is Knowledge Power? On the (Im)possibility of Learning from Strategic Interaction

要約

戦略的環境で学習する場合、重要な問題は、エージェントが自分の好みに関する不確実性を克服して、不確実性がなければ達成できたはずの結果を達成できるかどうかです。
相互作用だけでこれを実現できるでしょうか?
私たちはこの質問をエージェントがシュタッケルベルク最適戦略の価値を達成する能力に焦点を当て、情報の非対称性の影響を研究します。
私たちは、プレーヤーの行動が、観察された履歴とゲームの知識を考慮した学習アルゴリズムに基づいて決定される、完全に戦略的な環境で繰り返されるインタラクションを研究します。
私たちは、プレイヤーがアクションとしてこれらのアルゴリズムを選択するメタゲームの純粋ナッシュ均衡 (PNE) を研究します。
私たちは、1 人のプレイヤーがゲームについて完全な知識を持っている場合、初期の情報のギャップは存続することを示します。
つまり、情報を知らされたエージェントがシュタッケルベルグ値を達成する PNE が常に存在しますが、部分的に情報を与えられたプレイヤーがシュタッケルベルグ値を達成できるメタゲームの PNE がないゲームも存在します。
一方で、両方のプレイヤーがゲームについて何らかの不確実性を持って開始した場合、情報の質だけではどちらのエージェントがシュタッケルベルグの価値を達成できるかは決まりません。
この場合、情報の非対称性の概念は微妙になり、ゲームの構造に依存します。
全体として、私たちの調査結果は、戦略的インタラクションを繰り返すだけでは、知識のないプレイヤーがシュタッケルベルクの価値を獲得できるほど効果的に学習を促進することはできないことを示唆しています。

要約(オリジナル)

When learning in strategic environments, a key question is whether agents can overcome uncertainty about their preferences to achieve outcomes they could have achieved absent any uncertainty. Can they do this solely through interactions with each other? We focus this question on the ability of agents to attain the value of their Stackelberg optimal strategy and study the impact of information asymmetry. We study repeated interactions in fully strategic environments where players’ actions are decided based on learning algorithms that take into account their observed histories and knowledge of the game. We study the pure Nash equilibria (PNE) of a meta-game where players choose these algorithms as their actions. We demonstrate that if one player has perfect knowledge about the game, then any initial informational gap persists. That is, while there is always a PNE in which the informed agent achieves her Stackelberg value, there is a game where no PNE of the meta-game allows the partially informed player to achieve her Stackelberg value. On the other hand, if both players start with some uncertainty about the game, the quality of information alone does not determine which agent can achieve her Stackelberg value. In this case, the concept of information asymmetry becomes nuanced and depends on the game’s structure. Overall, our findings suggest that repeated strategic interactions alone cannot facilitate learning effectively enough to earn an uninformed player her Stackelberg value.

arxiv情報

著者 Nivasini Ananthakrishnan,Nika Haghtalab,Chara Podimata,Kunhe Yang
発行日 2024-08-15 17:17:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG パーマリンク