A Tractable Online Learning Algorithm for the Multinomial Logit Contextual Bandit

要約

この論文では、MNL-Bandit 問題の状況に応じた変形について考察します。
より具体的には、意思決定者が製品のサブセット (品揃え) を消費者に提供し、各ラウンドでの反応を観察する、動的なセット最適化問題を検討します。
消費者は、その有用性を最大限に高めるために製品を購入します。
一連の属性が製品を説明し、製品の平均有用性はこれらの属性の値において線形であると仮定します。
私たちは、広く使用されている多項ロジット (MNL) モデルを使用して消費者の選択行動をモデル化し、販売期間 $T$ にわたる累積収益を最適化しながらモデルのパラメーターを動的に学習するという意思決定者の問題を検討します。
この問題は最近かなりの注目を集めていますが、多くの既存の方法では、多くの場合、難解な非凸最適化問題を解決する必要があります。
理論上のパフォーマンス保証は、法外に大きくなる可能性がある問題依存のパラメーターに依存します。
特に、この問題に対する既存のアルゴリズムは、$O(\sqrt{\kappa d T})$ によって制限されています。ここで、$\kappa$ は、属性の数に指数関数的に依存する可能性がある問題依存の定数です。
この論文では、楽観的アルゴリズムを提案し、後悔が $O(\sqrt{dT} + \kappa)$ によって制限され、既存の方法よりもパフォーマンスが大幅に向上することを示します。
さらに、我々は最適化ステップの凸型緩和を提案します。これにより、好ましいリグレス保証を維持しながら扱いやすい意思決定が可能になります。

要約(オリジナル)

In this paper, we consider the contextual variant of the MNL-Bandit problem. More specifically, we consider a dynamic set optimization problem, where a decision-maker offers a subset (assortment) of products to a consumer and observes the response in every round. Consumers purchase products to maximize their utility. We assume that a set of attributes describe the products, and the mean utility of a product is linear in the values of these attributes. We model consumer choice behavior using the widely used Multinomial Logit (MNL) model and consider the decision maker problem of dynamically learning the model parameters while optimizing cumulative revenue over the selling horizon $T$. Though this problem has attracted considerable attention in recent times, many existing methods often involve solving an intractable non-convex optimization problem. Their theoretical performance guarantees depend on a problem-dependent parameter which could be prohibitively large. In particular, existing algorithms for this problem have regret bounded by $O(\sqrt{\kappa d T})$, where $\kappa$ is a problem-dependent constant that can have an exponential dependency on the number of attributes. In this paper, we propose an optimistic algorithm and show that the regret is bounded by $O(\sqrt{dT} + \kappa)$, significantly improving the performance over existing methods. Further, we propose a convex relaxation of the optimization step, which allows for tractable decision-making while retaining the favourable regret guarantee.

arxiv情報

著者 Priyank Agrawal,Theja Tulabandhula,Vashist Avadhanula
発行日 2023-08-18 16:10:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク