Safe Exploitative Play with Untrusted Type Beliefs

要約

ベイジアン ゲームと学習の組み合わせには豊かな歴史があり、一連のタイプが与えられた未知の動作を持つ複数のエージェントで構成されるシステム内で単一のエージェントを制御するというアイデアがあり、それぞれが他のエージェントの可能な動作を指定します。
このアイデアは、利益を最大化する可能性が最も高いと思われるタイプに関してエージェント自身のアクションを計画することです。
ただし、タイプ信念は過去の行動から学習されることが多く、間違っている可能性が高くなります。
この観点を念頭に置いて、他のコンポーネントのタイプ予測を備えたゲーム内のエージェントを検討し、エージェントの利益に対する誤った信念の影響を調査します。
特に、得られるペイオフと最適なペイオフを比較することによって、リスクと機会の間のトレードオフを正式に定義します。最適なペイオフは、学習された信念を信頼または不信にすることによって生じるギャップによって表されます。
私たちの主な結果は、正規形ゲームと確率的ベイジアン ゲームの両方についてパレート フロントの上限と下限を確立することによってトレードオフを特徴付け、数値結果を提供します。

要約(オリジナル)

The combination of the Bayesian game and learning has a rich history, with the idea of controlling a single agent in a system composed of multiple agents with unknown behaviors given a set of types, each specifying a possible behavior for the other agents. The idea is to plan an agent’s own actions with respect to those types which it believes are most likely to maximize the payoff. However, the type beliefs are often learned from past actions and likely to be incorrect. With this perspective in mind, we consider an agent in a game with type predictions of other components, and investigate the impact of incorrect beliefs to the agent’s payoff. In particular, we formally define a tradeoff between risk and opportunity by comparing the payoff obtained against the optimal payoff, which is represented by a gap caused by trusting or distrusting the learned beliefs. Our main results characterize the tradeoff by establishing upper and lower bounds on the Pareto front for both normal-form and stochastic Bayesian games, with numerical results provided.

arxiv情報

著者 Tongxin Li,Tinashe Handina,Shaolei Ren,Adam Wierman
発行日 2024-11-20 17:11:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG パーマリンク