要約
デジタル ヘルスと EdTech では、レコメンデーション システムが重大な課題に直面しています。ユーザーはプラットフォームの長期的な利益と矛盾する方法で衝動的に選択することがよくあります。
このずれにより、長期的な利益がより大きいアイテムの探索が妨げられる可能性があるため、アイテムのランク付けを効果的に学習することが困難になります。
私たちの論文では、ユーザーの限られた注意力の持続時間を利用して、この問題に取り組みます。
私たちは、プラットフォームが $T$ ユーザーに、プラットフォームに対する見返りが不明なアイテムをランク付けされたリストで時間の経過とともに提示するモデルを提案します。
各ユーザーは、最初にこれらのランク付けされたアイテムのプレフィックス ウィンドウを考慮し、次にそのウィンドウ内で最も好ましいアイテムを選択することによってアイテムを選択します (プラットフォームはこのアイテムの見返りを観察します)。
私たちは、後から考えた最適なベンチマークに対して消える後悔を得るオンラインバンディットアルゴリズムの設計を研究します。
まず、敵対的なウィンドウ サイズと確率的 IID ペイオフを検討します。
一致するリグレスの上限と下限を示すことで、最適なインスタンス依存のリグレス限界 $O(\log(T))$ を達成する、アクティブエリミネーションベースのアルゴリズムを設計します。
重要なアイデアは、問題の組み合わせ構造を使用して、各項目から大きな利益を得るか、その項目からサンプルを取得して調査することです。
この方法では、項目の選択肢を体系的に絞り込み、学習効率と成果を高めます。
次に、敵対的なペイオフと確率的 IID ウィンドウ サイズを考慮します。
期待される利得を最大化する順列を見つけるという完全情報問題から始めます。
新しい組み合わせ引数により、順列による許容可能な項目選択確率の多面体を特徴付け、それが多項式サイズの表現を持つことを示します。
この表現を使用して、許容確率空間における敵対的オンライン線形最適化の標準アルゴリズムを使用して、$O(\sqrt{T})$ リグレットを伴う多項式時間アルゴリズムを取得する方法を示します。
要約(オリジナル)
In digital health and EdTech, recommendation systems face a significant challenge: users often choose impulsively, in ways that conflict with the platform’s long-term payoffs. This misalignment makes it difficult to effectively learn to rank items, as it may hinder exploration of items with greater long-term payoffs. Our paper tackles this issue by utilizing users’ limited attention spans. We propose a model where a platform presents items with unknown payoffs to the platform in a ranked list to $T$ users over time. Each user selects an item by first considering a prefix window of these ranked items and then picking the highest preferred item in that window (and the platform observes its payoff for this item). We study the design of online bandit algorithms that obtain vanishing regret against hindsight optimal benchmarks. We first consider adversarial window sizes and stochastic iid payoffs. We design an active-elimination-based algorithm that achieves an optimal instance-dependent regret bound of $O(\log(T))$, by showing matching regret upper and lower bounds. The key idea is using the combinatorial structure of the problem to either obtain a large payoff from each item or to explore by getting a sample from that item. This method systematically narrows down the item choices to enhance learning efficiency and payoff. Second, we consider adversarial payoffs and stochastic iid window sizes. We start from the full-information problem of finding the permutation that maximizes the expected payoff. By a novel combinatorial argument, we characterize the polytope of admissible item selection probabilities by a permutation and show it has a polynomial-size representation. Using this representation, we show how standard algorithms for adversarial online linear optimization in the space of admissible probabilities can be used to obtain a polynomial-time algorithm with $O(\sqrt{T})$ regret.
arxiv情報
著者 | Arpit Agarwal,Rad Niazadeh,Prathamesh Patil |
発行日 | 2024-02-21 18:52:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google