Impact of Decentralized Learning on Player Utilities in Stackelberg Games

要約

レコメンダー システムやチャットボットなどの学習エージェントは、世界に展開されると、時間の経過とともに別の学習エージェント (ユーザーなど) と繰り返し対話することがよくあります。
このような 2 エージェント システムの多くでは、各エージェントが個別に学習するため、2 人のエージェントの報酬は完全には一致しません。
このようなケースをより深く理解するために、2 エージェント システムの学習ダイナミクスと各エージェントの目的への影響を調べます。
私たちはこれらのシステムを分散学習を備えたシュタッケルベルグ ゲームとしてモデル化し、標準的なリグレス ベンチマーク (シュタッケルベルグの均衡ペイオフなど) が少なくとも 1 人のプレイヤーにとって最悪の場合の線形リグアランスをもたらすことを示します。
これらのシステムをより適切に捕捉するために、エージェントによる小さな学習エラーを許容する、緩和されたリグレス ベンチマークを構築します。
標準的な学習アルゴリズムでは線形未満の後悔を提供できないことを示し、これらのベンチマークに関して両方のプレーヤーにとって最適に近い $O(T^{2/3})$ の後悔を達成するアルゴリズムを開発しました。
さらに、より速い学習 ($O(\sqrt{T})$) が可能なリラックスした環境を設計します。
まとめると、私たちの結果は、逐次分散型学習環境における 2 つのエージェントの相互作用が両方のエージェントの有用性にどのような影響を与えるかを評価するための一歩を踏み出しました。

要約(オリジナル)

When deployed in the world, a learning agent such as a recommender system or a chatbot often repeatedly interacts with another learning agent (such as a user) over time. In many such two-agent systems, each agent learns separately and the rewards of the two agents are not perfectly aligned. To better understand such cases, we examine the learning dynamics of the two-agent system and the implications for each agent’s objective. We model these systems as Stackelberg games with decentralized learning and show that standard regret benchmarks (such as Stackelberg equilibrium payoffs) result in worst-case linear regret for at least one player. To better capture these systems, we construct a relaxed regret benchmark that is tolerant to small learning errors by agents. We show that standard learning algorithms fail to provide sublinear regret, and we develop algorithms to achieve near-optimal $O(T^{2/3})$ regret for both players with respect to these benchmarks. We further design relaxed environments under which faster learning ($O(\sqrt{T})$) is possible. Altogether, our results take a step towards assessing how two-agent interactions in sequential and decentralized learning environments affect the utility of both agents.

arxiv情報

著者 Kate Donahue,Nicole Immorlica,Meena Jagadeesan,Brendan Lucier,Aleksandrs Slivkins
発行日 2024-06-21 17:11:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG パーマリンク