WAPTS: A Weighted Allocation Probability Adjusted Thompson Sampling Algorithm for High-Dimensional and Sparse Experiment Settings

要約

さまざまなコンテンツ オプションがユーザー エンゲージメントをめぐって競合するビデオ コンテンツ広告など、より効果的な実験デザインを目指して、これらのシナリオをマルチアーム バンディット問題としてモデル化できます。
実験の実施コストなどの外部要因により利用できるインタラクションが限られている場合、レコメンダーはユーザーとのインタラクションの数が少ないために制約に直面することがよくあります。
さらに、最適な治療法を選択することと、個々の要因に基づいて個別化および状況に応じた対応を行う機能との間にはトレードオフの関係があります。
このジレンマに対する一般的な解決策は、Contextual Bandit フレームワークです。
パーソナライゼーション (コンテキスト) 要素を組み込み、ユーザーのプロフィールなどの処理を個人の好みに合わせてカスタマイズしながら、成果を最大化することを目指しています。
コンテキストバンディットアルゴリズムは、その利点にもかかわらず、測定バイアスや「次元の呪い」などの課題に直面しています。
これらの問題により、多数の介入の管理が複雑になり、多くの場合、参加者のセグメント化によるデータの希薄化が生じます。
これらの問題に対処するために、加重割り当て確率調整トンプソン サンプリング (WAPTS) アルゴリズムを導入します。
WAPTS は、動的な重み付けパラメーターを使用することにより、コンテキストに応じたトンプソン サンプリング手法に基づいて構築されます。
これにより、介入の割り当てプロセスが改善され、データが少ない環境での迅速な最適化が可能になります。
さまざまなアーム数と効果サイズに対するアプローチのパフォーマンスを実証します。

要約(オリジナル)

Aiming for more effective experiment design, such as in video content advertising where different content options compete for user engagement, these scenarios can be modeled as multi-arm bandit problems. In cases where limited interactions are available due to external factors, such as the cost of conducting experiments, recommenders often face constraints due to the small number of user interactions. In addition, there is a trade-off between selecting the best treatment and the ability to personalize and contextualize based on individual factors. A popular solution to this dilemma is the Contextual Bandit framework. It aims to maximize outcomes while incorporating personalization (contextual) factors, customizing treatments such as a user’s profile to individual preferences. Despite their advantages, Contextual Bandit algorithms face challenges like measurement bias and the ‘curse of dimensionality.’ These issues complicate the management of numerous interventions and often lead to data sparsity through participant segmentation. To address these problems, we introduce the Weighted Allocation Probability Adjusted Thompson Sampling (WAPTS) algorithm. WAPTS builds on the contextual Thompson Sampling method by using a dynamic weighting parameter. This improves the allocation process for interventions and enables rapid optimization in data-sparse environments. We demonstrate the performance of our approach on different numbers of arms and effect sizes.

arxiv情報

著者 Haochen Song,Ilya Musabirov,Ananya Bhattacharjee,Audrey Durand,Meredith Franklin,Anna Rafferty,Joseph Jay Williams
発行日 2025-01-07 18:55:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク