要約
この研究では、RecBole および LensKit レコメンダー システム ライブラリのアイテムベースの k-最近傍法 (ItemKNN) アルゴリズムのパフォーマンスを調査します。
4 つのデータ セット (アニメ、Modcloth、ML-100K、および ML-1M) を使用して、主に正規化割引累積ゲイン (nDCG) に焦点を当てて、各ライブラリの効率、精度、およびスケーラビリティを評価します。
私たちの結果は、RecBole が ML-100K データセットの 3 つの指標のうち 2 つで LensKit よりも優れていることを示しています。つまり、nDCG が 18% 高く、精度が 14% 高く、再現率が 35% 低くなりました。
公平な比較を保証するために、LensKit の nDCG 計算を RecBole の方法と一致するように調整しました。
この調整により、LensKit の nDCG が 0.2540、RecBole が 0.2674 を達成し、パフォーマンスがより同等になりました。
類似性マトリックスの計算の違いが、パフォーマンスの偏差の主な原因であることが特定されました。
上位 K 個の類似アイテムのみを保持するように LensKit を変更した後、両方のライブラリは、すべてのデータ セットにわたってほぼ同一の nDCG 値を示しました。
たとえば、どちらも同じランダム シードを使用した ML-1M データ セットで 0.2586 の nDCG を達成しました。
当初、LensKit の元の実装は、ModCloth データセットの RecBole を超えるだけでした。
要約(オリジナル)
This study examines the performance of item-based k-Nearest Neighbors (ItemKNN) algorithms in the RecBole and LensKit recommender system libraries. Using four data sets (Anime, Modcloth, ML-100K, and ML-1M), we assess each library’s efficiency, accuracy, and scalability, focusing primarily on normalized discounted cumulative gain (nDCG). Our results show that RecBole outperforms LensKit on two of three metrics on the ML-100K data set: it achieved an 18% higher nDCG, 14% higher precision, and 35% lower recall. To ensure a fair comparison, we adjusted LensKit’s nDCG calculation to match RecBole’s method. This alignment made the performance more comparable, with LensKit achieving an nDCG of 0.2540 and RecBole 0.2674. Differences in similarity matrix calculations were identified as the main cause of performance deviations. After modifying LensKit to retain only the top K similar items, both libraries showed nearly identical nDCG values across all data sets. For instance, both achieved an nDCG of 0.2586 on the ML-1M data set with the same random seed. Initially, LensKit’s original implementation only surpassed RecBole in the ModCloth dataset.
arxiv情報
著者 | Michael Schmidt,Jannik Nitschke,Tim Prinz |
発行日 | 2024-07-18 14:04:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google