Leveraging the Power of Conversations: Optimal Key Term Selection in Conversational Contextual Bandits

要約

会話型推奨システムは、関連する「重要な用語」を持つユーザーを積極的に照会し、フィードバックを活用して、パーソナライズされた推奨事項に対するユーザーの好みを引き出します。
このドメインで一般的なアプローチである会話の文脈的盗賊は、搾取と探査のバランスをとることにより、好みの学習を最適化することを目指しています。
ただし、いくつかの制限は、実際のシナリオでの有効性を妨げています。
第一に、既存のアルゴリズムは、探索が不十分な主要な用語選択戦略を採用しており、ユーザーの好みを完全にプローブすることに失敗し、最適ではない好みの推定をもたらします。
第二に、現在のアルゴリズムは通常、決定論的ルールに依存して会話を開始し、好みが十分に理解されている場合に不必要な相互作用を引き起こし、好みが不確実な場合は機会を逃します。
これらの制限に対処するために、Clisk、Clime、およびClisk-Meの3つの新しいアルゴリズムを提案します。
Cliskは、好みの学習における探索を強化するためにスムーズな主要な用語のコンテキストを導入し、Climeは好みの不確実性に基づいて会話を適応的に開始し、Clisk-Meは両方の手法を統合します。
3つのアルゴリズムすべてが$ o(\ sqrt {dt \ log {t}})$のより厳しい後悔の上限を達成し、既存の方法を改善することを実現します。
さらに、会話の盗賊には、一致する下限$ \ omega(\ sqrt {dt})$を提供し、アルゴリズムが最適ではないことを示しています。
合成データセットと現実世界の両方のデータセットの両方での広範な評価は、私たちのアプローチが累積後悔の少なくとも14.6%の改善を達成することを示しています。

要約(オリジナル)

Conversational recommender systems proactively query users with relevant ‘key terms’ and leverage the feedback to elicit users’ preferences for personalized recommendations. Conversational contextual bandits, a prevalent approach in this domain, aim to optimize preference learning by balancing exploitation and exploration. However, several limitations hinder their effectiveness in real-world scenarios. First, existing algorithms employ key term selection strategies with insufficient exploration, often failing to thoroughly probe users’ preferences and resulting in suboptimal preference estimation. Second, current algorithms typically rely on deterministic rules to initiate conversations, causing unnecessary interactions when preferences are well-understood and missed opportunities when preferences are uncertain. To address these limitations, we propose three novel algorithms: CLiSK, CLiME, and CLiSK-ME. CLiSK introduces smoothed key term contexts to enhance exploration in preference learning, CLiME adaptively initiates conversations based on preference uncertainty, and CLiSK-ME integrates both techniques. We theoretically prove that all three algorithms achieve a tighter regret upper bound of $O(\sqrt{dT\log{T}})$ with respect to the time horizon $T$, improving upon existing methods. Additionally, we provide a matching lower bound $\Omega(\sqrt{dT})$ for conversational bandits, demonstrating that our algorithms are nearly minimax optimal. Extensive evaluations on both synthetic and real-world datasets show that our approaches achieve at least a 14.6% improvement in cumulative regret.

arxiv情報

著者 Maoli Liu,Zhuohua Li,Xiangxiang Dai,John C. S. Lui
発行日 2025-05-27 16:22:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク