Online Policy Learning and Inference by Matrix Completion

要約

機能がまばらで過去の機能と直交している場合、特に協調フィルタリングを通じて最適なポリシーが学習される場合、オンラインでの意思決定は困難になる可能性があります。
この問題を行列補完バンディット (MCB) として定式化します。ここで、各アームの下で期待される報酬は、未知の低ランク行列によって特徴付けられます。
$\epsilon$-greedy Bandit とオンライン勾配降下法アルゴリズムについて調査します。
ポリシーの学習とリグレスのパフォーマンスは、探索確率とステップ サイズの特定のスケジュールに基づいて研究されます。
探索確率の減衰が速いほど、後悔は小さくなりますが、最適なポリシーの学習精度は低くなります。
逆傾向重み付け (IPW) とオンライン ポリシー推論の一般的なフレームワークに基づいたオンライン バイアス除去方法を調査します。
IPW ベースの推定量は、穏やかなアーム最適化条件下では漸近的に正常になります。
数値シミュレーションは、我々の理論的発見を裏付けています。
私たちの手法はサンフランシスコの駐車料金設定プロジェクトのデータに適用され、興味深い発見が明らかになり、ベンチマーク政策を上回るパフォーマンスを示しています。

要約(オリジナル)

Making online decisions can be challenging when features are sparse and orthogonal to historical ones, especially when the optimal policy is learned through collaborative filtering. We formulate the problem as a matrix completion bandit (MCB), where the expected reward under each arm is characterized by an unknown low-rank matrix. The $\epsilon$-greedy bandit and the online gradient descent algorithm are explored. Policy learning and regret performance are studied under a specific schedule for exploration probabilities and step sizes. A faster decaying exploration probability yields smaller regret but learns the optimal policy less accurately. We investigate an online debiasing method based on inverse propensity weighting (IPW) and a general framework for online policy inference. The IPW-based estimators are asymptotically normal under mild arm-optimality conditions. Numerical simulations corroborate our theoretical findings. Our methods are applied to the San Francisco parking pricing project data, revealing intriguing discoveries and outperforming the benchmark policy.

arxiv情報

著者 Congyuan Duan,Jingyang Li,Dong Xia
発行日 2024-04-26 13:19:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク