Data augmentation for recommender system: A semi-supervised approach using maximum margin matrix factorization

要約

協調フィルタリング (CF) は、新しいアイテムに対するユーザーの評価がユーザーの過去の好みや利用可能な他のユーザーの好み情報に基づいて予測されるレコメンダー システム (RS) を開発するための一般的な方法となっています。
CF ベースの手法は人気があるにもかかわらず、そのパフォーマンスは観察されるエントリのまばらさによって大きく制限されることがよくあります。
この研究では、これまで調査されていなかった格付け予測用の CF 手法として広く受け入れられている最大証拠金行列因数分解 (MMMF) のデータの増強と洗練の側面を調査します。
私たちは、CF アルゴリズムの固有の特性を利用して、個々の評価の信頼レベルを評価し、自己学習に基づいて評価を強化するための半教師ありアプローチを提案します。
私たちは、信頼度の低い CF アルゴリズムの予測はトレーニング データの何らかの欠陥が原因であるため、体系的なデータ拡張戦略を採用することでアルゴリズムのパフォーマンスを向上できると仮説を立てます。
高い信頼度で予測された評価の一部を繰り返し使用して、トレーニング データを強化し、改良プロセスを通じて信頼性の低いエントリを削除します。
このプロセスを繰り返すことで、システムは予測精度を向上させることを学習します。
私たちの手法は、いくつかの最先端の CF アルゴリズムで実験的に評価されており、有益な評価の強化につながり、ベースライン アプローチのパフォーマンスが向上します。

要約(オリジナル)

Collaborative filtering (CF) has become a popular method for developing recommender systems (RS) where ratings of a user for new items is predicted based on her past preferences and available preference information of other users. Despite the popularity of CF-based methods, their performance is often greatly limited by the sparsity of observed entries. In this study, we explore the data augmentation and refinement aspects of Maximum Margin Matrix Factorization (MMMF), a widely accepted CF technique for the rating predictions, which have not been investigated before. We exploit the inherent characteristics of CF algorithms to assess the confidence level of individual ratings and propose a semi-supervised approach for rating augmentation based on self-training. We hypothesize that any CF algorithm’s predictions with low confidence are due to some deficiency in the training data and hence, the performance of the algorithm can be improved by adopting a systematic data augmentation strategy. We iteratively use some of the ratings predicted with high confidence to augment the training data and remove low-confidence entries through a refinement process. By repeating this process, the system learns to improve prediction accuracy. Our method is experimentally evaluated on several state-of-the-art CF algorithms and leads to informative rating augmentation, improving the performance of the baseline approaches.

arxiv情報

著者 Shamal Shaikh,Venkateswara Rao Kagita,Vikas Kumar,Arun K Pujari
発行日 2023-06-22 17:17:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG パーマリンク