要約
Qラーニングは、利用可能な各アクションに関連付けられた継続値の推定値(Q値)を提供し、ほとんど常に最高のQ値でアクションを選択するナイーブポリシーに従う汎用オートマトンとして説明できます。
Q値に基づいたオートマトンファミリーを検討します。Q値は、たとえば協力を支持するバイアスを通じて、他のアクションよりも体系的に支持する可能性があります。
安定した平衡バイアスを探します。これは、バイアスよりも収束するロジット/ベスト応答ダイナミクスの下で簡単に学習し、暗黙の合意を必要としません。
これらのバイアスは、初期Q値とは無関係に、ペイオフおよび監視構造の豊富な配列にわたって共謀または協力を強く促進します。
要約(オリジナル)
Q-learning can be described as an all-purpose automaton that provides estimates (Q-values) of the continuation values associated with each available action and follows the naive policy of almost always choosing the action with highest Q-value. We consider a family of automata based on Q-values, whose policy may systematically favor some actions over others, for example through a bias that favors cooperation. We look for stable equilibrium biases, easily learned under converging logit/best-response dynamics over biases, not requiring any tacit agreement. These biases strongly foster collusion or cooperation across a rich array of payoff and monitoring structures, independently of initial Q-values.
arxiv情報
著者 | Olivier Compte |
発行日 | 2025-05-28 15:32:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google