Scalable and Interpretable Contextual Bandits: A Literature Review and Retail Offer Prototype

要約

このホワイトペーパーでは、コンテキストマルチアライムバンディット(CMAB)メソッドの簡潔なレビューを紹介し、スケーラブルで解釈可能なオファー選択のための実験的なフレームワークを紹介し、急速に変化するオファーの課題に対処します。
アプローチは製品カテゴリレベルでコンテキストをモデル化し、オファーが複数のカテゴリにまたがることができるようになり、同様のオファー全体で知識の転送を可能にします。
これにより、動的環境での学習効率と一般化が改善されます。
このフレームワークは、マルチカテゴリコンテキストをサポートするために標準のCMAB方法論を拡張し、効率的な機能エンジニアリングとモジュラー設計を通じてスケーラビリティを実現します。
MPG(メンバー購入ギャップ)やMF(Matrix Factorization)などの高度な機能は、微妙なユーザーオファーインタラクションをキャプチャし、実用的な展開のためのPythonでの実装を使用します。
重要な貢献度は大規模な解釈可能性です。ロジスティック回帰モデルは、リアルタイム、ユーザーレベルの追跡、進化する好みの説明のために大規模な言語モデル(LLM)インターフェイスを介してアクセス可能な透明な重量ベクトルを生成します。
これにより、詳細なメンバープロファイルの生成と行動パターンの識別が可能になり、パーソナライズされたオファーの最適化をサポートし、自動化された意思決定に対する信頼を高めることができます。
一般化された線形モデルやトンプソンサンプリングなどの確立されたパラダイムと一緒にプロトタイプを位置付けることにより、研究と実世界のCMABアプリケーションの両方に対してその価値を示します。

要約(オリジナル)

This paper presents a concise review of Contextual Multi-Armed Bandit (CMAB) methods and introduces an experimental framework for scalable, interpretable offer selection, addressing the challenge of fast-changing offers. The approach models context at the product category level, allowing offers to span multiple categories and enabling knowledge transfer across similar offers. This improves learning efficiency and generalization in dynamic environments. The framework extends standard CMAB methodology to support multi-category contexts, and achieves scalability through efficient feature engineering and modular design. Advanced features such as MPG (Member Purchase Gap) and MF (Matrix Factorization) capture nuanced user-offer interactions, with implementation in Python for practical deployment. A key contribution is interpretability at scale: logistic regression models yield transparent weight vectors, accessible via a large language model (LLM) interface for real-time, user-level tracking and explanation of evolving preferences. This enables the generation of detailed member profiles and identification of behavioral patterns, supporting personalized offer optimization and enhancing trust in automated decisions. By situating our prototype alongside established paradigms like Generalized Linear Models and Thompson Sampling, we demonstrate its value for both research and real-world CMAB applications.

arxiv情報

著者 Nikola Tankovic,Robert Sajina
発行日 2025-05-22 17:13:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク