DISCO: An End-to-End Bandit Framework for Personalised Discount Allocation

要約

パーソナライズされた割引コードは、電子商取引における顧客関係と運営支出を管理するための強力なメカニズムを提供します。
問題の部分的な情報の性質と、変化するビジネス環境への適応の必要性を考慮すると、Bandits はこの製品分野に非常に適しています。
ここでは、ASOS.com でのパーソナライズされた割引コード割り当てのためのエンドツーエンドのコンテキスト バンディット フレームワークである DISCO を紹介します。
DISCO は、整数プログラム内に統合することで従来のトンプソン サンプリング アルゴリズムを採用し、それにより運用コストの管理を可能にします。
高次元のアクションではバンディットの学習がさらに悪くなることが多いため、私たちは高精度でありながら低次元のアクションとコンテキスト表現を構築することに重点を置きました。
さらに、価格の低下に応じて顧客が購入を増やすという、価格と売上の関係(「負の価格弾力性」)を維持するモデルの構築を目指しました。
これらの目的は、ニューラル ネットワークから抽出されたコンテキストの埋め込みと組み合わせて、連続的な (つまり、無限の武装した) アクション空間を表す動径基底関数を使用することによって達成されました。
これらの特徴表現は、探索を容易にするために Thompson Sampling フレームワーク内で使用され、さらに整数プログラムと統合されて ASOS の顧客ベース全体に割引コードを割り当てました。
これらのモデリングの決定により、(a) 同様のアクションにわたるプール学習が可能になり、(b) 外挿も含めて精度が高く、(c) 予想される負の価格弾力性が維持される報酬モデルが得られます。
オフライン分析を通じて、世界的な制約にもかかわらず、ディスコが効果的に探査を実施し、時間の経過とともにパフォーマンスを向上させることができることを示しました。
最後に、ディスコに厳格なオンライン A/B テストを実施したところ、従来のシステムと比較して平均バスケット価値が 1% を超える大幅な向上を達成していることがわかりました。

要約(オリジナル)

Personalised discount codes provide a powerful mechanism for managing customer relationships and operational spend in e-commerce. Bandits are well suited for this product area, given the partial information nature of the problem, as well as the need for adaptation to the changing business environment. Here, we introduce DISCO, an end-to-end contextual bandit framework for personalised discount code allocation at ASOS.com. DISCO adapts the traditional Thompson Sampling algorithm by integrating it within an integer program, thereby allowing for operational cost control. Because bandit learning is often worse with high dimensional actions, we focused on building low dimensional action and context representations that were nonetheless capable of good accuracy. Additionally, we sought to build a model that preserved the relationship between price and sales, in which customers increasing their purchasing in response to lower prices (‘negative price elasticity’). These aims were achieved by using radial basis functions to represent the continuous (i.e. infinite armed) action space, in combination with context embeddings extracted from a neural network. These feature representations were used within a Thompson Sampling framework to facilitate exploration, and further integrated with an integer program to allocate discount codes across ASOS’s customer base. These modelling decisions result in a reward model that (a) enables pooled learning across similar actions, (b) is highly accurate, including in extrapolation, and (c) preserves the expected negative price elasticity. Through offline analysis, we show that DISCO is able to effectively enact exploration and improves its performance over time, despite the global constraint. Finally, we subjected DISCO to a rigorous online A/B test, and find that it achieves a significant improvement of >1% in average basket value, relative to the legacy systems.

arxiv情報

著者 Jason Shuo Zhang,Benjamin Howson,Panayiota Savva,Eleanor Loh
発行日 2024-06-10 16:24:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク