Expert with Clustering: Hierarchical Online Preference Learning Framework

要約

新興モビリティ システムは、モビリティ ユーザーにオプションを推奨し、パーソナライズされながらも持続可能なシステムの成果に導くことができるようになってきています。
一般的なレコメンデーション システムよりも、1) モビリティ オプションはユーザーの生活に直接影響し、2) システムの持続可能性は十分なユーザーの参加に依存するため、後悔を最小限に抑えることが重要です。
本研究では、ユーザーのモビリティの好みを捉える低次元の潜在空間を活用することで、ユーザーの好みの学習を加速することを検討します。
クラスタリング技術と予測を専門家のアドバイスと統合する、Expert with Clustering (EWC) という名前の階層コンテキスト バンディット フレームワークを導入します。
EWC は、階層的なユーザー情報を効率的に利用し、新しい損失ガイド付き距離メトリックを組み込みます。
このメトリックは、より代表的なクラスター重心を生成するのに役立ちます。
$N$ ユーザー、ユーザーあたり $T$ ラウンド、および $K$ オプションを使用した推奨シナリオでは、アルゴリズムは $O(N\sqrt{T\log K} + NT)$ のリグレス限界を達成します。
この限界は 2 つの部分で構成されます。最初の項はヘッジ アルゴリズムからのリグレスで、2 番目の項はクラスタリングからの平均損失に依存します。
このアルゴリズムは、特にユーザー間に潜在的な階層構造が存在する場合に、ほとんど問題なく実行されます。
この後悔の限界は、特に迅速な学習と適応が必要なシナリオにおいて、EWC の理論的および実験的有効性を強調しています。
実験結果は、EWC が LinUCB ベースラインと比較して後悔を 27.57% 大幅に軽減できることを強調しています。
私たちの研究は、個人と集団の両方の行動を捕捉するためのデータ効率の高いアプローチを提供し、階層構造を持つコンテキストに高度に適用できるようにしています。
このアルゴリズムは、ユーザーの好みや情報の微妙なニュアンスが重なり合う他の設定にも適用できると考えられます。

要約(オリジナル)

Emerging mobility systems are increasingly capable of recommending options to mobility users, to guide them towards personalized yet sustainable system outcomes. Even more so than the typical recommendation system, it is crucial to minimize regret, because 1) the mobility options directly affect the lives of the users, and 2) the system sustainability relies on sufficient user participation. In this study, we consider accelerating user preference learning by exploiting a low-dimensional latent space that captures the mobility preferences of users. We introduce a hierarchical contextual bandit framework named Expert with Clustering (EWC), which integrates clustering techniques and prediction with expert advice. EWC efficiently utilizes hierarchical user information and incorporates a novel Loss-guided Distance metric. This metric is instrumental in generating more representative cluster centroids. In a recommendation scenario with $N$ users, $T$ rounds per user, and $K$ options, our algorithm achieves a regret bound of $O(N\sqrt{T\log K} + NT)$. This bound consists of two parts: the first term is the regret from the Hedge algorithm, and the second term depends on the average loss from clustering. The algorithm performs with low regret, especially when a latent hierarchical structure exists among users. This regret bound underscores the theoretical and experimental efficacy of EWC, particularly in scenarios that demand rapid learning and adaptation. Experimental results highlight that EWC can substantially reduce regret by 27.57% compared to the LinUCB baseline. Our work offers a data-efficient approach to capturing both individual and collective behaviors, making it highly applicable to contexts with hierarchical structures. We expect the algorithm to be applicable to other settings with layered nuances of user preferences and information.

arxiv情報

著者 Tianyue Zhou,Jung-Hoon Cho,Babak Rahimi Ardabili,Hamed Tabkhi,Cathy Wu
発行日 2024-01-26 18:44:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク