Competing Bandits in Decentralized Large Contextual Matching Markets

要約

マルチエージェントのリソースに制約のあるマッチング市場における逐次学習は、ここ数年で大きな関心を集めています。
私たちは、安定したマッチングを獲得するために、需要側 (別名プレーヤーまたはエージェント) が潜在的に時間変化する選好を持つ「大規模な」供給側 (別名アーム) をめぐって競争する両面マッチング市場における分散学習を研究します。
最近の長い取り組みにも関わらず、Explore-Then-Commit や Upper-Confidence-Bound などの既存の学習アルゴリズムは、この問題に対して依然として非効率的です。
特に、これらのアルゴリズムによって達成されるエージェントごとのリグレスは、アームの数 $K$ に比例して増加します。
線形コンテキスト バンディット フレームワークに動機付けられ、各エージェントのアーム平均は既知の特徴ベクトルと未知の (エージェント固有の) パラメーターの線形関数で表現できると仮定します。
さらに、私たちの設定は、武器に対する好みが時間の経過とともに変化する動的な(非定常な)マッチング市場の本質を捉えています。
私たちが提案するアルゴリズムは、アームの数 $K$ とは独立してスケーリングする、インスタンス依存の対数リグレスを実現します。

要約(オリジナル)

Sequential learning in a multi-agent resource constrained matching market has received significant interest in the past few years. We study decentralized learning in two-sided matching markets where the demand side (aka players or agents) competes for a `large’ supply side (aka arms) with potentially time-varying preferences, to obtain a stable match. Despite a long line of work in the recent past, existing learning algorithms such as Explore-Then-Commit or Upper-Confidence-Bound remain inefficient for this problem. In particular, the per-agent regret achieved by these algorithms scales linearly with the number of arms, $K$. Motivated by the linear contextual bandit framework, we assume that for each agent an arm-mean can be represented by a linear function of a known feature vector and an unknown (agent-specific) parameter. Moreover, our setup captures the essence of a dynamic (non-stationary) matching market where the preferences over arms change over time. Our proposed algorithms achieve instance-dependent logarithmic regret, scaling independently of the number of arms, $K$.

arxiv情報

著者 Satush Parikh,Soumya Basu,Avishek Ghosh,Abishek Sankararaman
発行日 2024-11-18 18:08:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク