Performance Comparison of Session-based Recommendation Algorithms based on GNNs

要約

セッションベースの推奨設定では、推奨システムは長期的なユーザー プロファイルにアクセスできないため、進行中のセッションで観察されるユーザー インタラクションに基づいて提案を行う必要があります。
このようなセッションは少数のインタラクションのみで構成されているため、項目に関するさまざまな種類の副次情報を自然な方法で統合できるよう、グラフ ニューラル ネットワーク (GNN) に基づくさまざまなアプローチが最近提案されました。
残念ながら、文献ではプロトコル、メトリクス、ベースラインなどのさまざまな評価設定が使用されており、何が最先端を表すかを評価することが困難になっています。
この研究では、高品質のメディアで発表された 8 つの最近の GNN ベースのアプローチの評価結果を紹介します。
公平な比較を行うために、すべてのモデルは 3 つの共通のデータセットを使用して同一の条件下で体系的に調整され、テストされています。
さらに、k 近傍法および逐次ルールベースのモデルをベースラインとして含めます。これは、このようなモデルが以前に同様の設定で競合するパフォーマンス結果を示しているためです。
驚いたことに、評価では、最適化基準として使用した平均逆数ランクに関しては、単純なモデルが最近のすべての GNN モデルよりも優れていることが示されましたが、ヒット率に関しては 3 つのケースでのみ優れていたことがわかりました。
さらに追加の分析により、ランダム シードなど、論文ではあまり深く議論されていない他のいくつかの要因が、GNN ベースのモデルのパフォーマンスに顕著な影響を与える可能性があることが明らかになりました。
したがって、私たちの結果は、(a) 研究方法論の点でコミュニティに継続的な問題があることを示し、(b) セッションベースの推奨には改善の余地が十分にあることを示しています。

要約(オリジナル)

In session-based recommendation settings, a recommender system has no access to long-term user profiles and thus has to base its suggestions on the user interactions that are observed in an ongoing session. Since such sessions can consist of only a small set of interactions, various approaches based on Graph Neural Networks (GNN) were recently proposed, as they allow us to integrate various types of side information about the items in a natural way. Unfortunately, a variety of evaluation settings are used in the literature, e.g., in terms of protocols, metrics and baselines, making it difficult to assess what represents the state of the art. In this work, we present the results of an evaluation of eight recent GNN-based approaches that were published in high-quality outlets. For a fair comparison, all models are systematically tuned and tested under identical conditions using three common datasets. We furthermore include k-nearest-neighbor and sequential rules-based models as baselines, as such models have previously exhibited competitive performance results for similar settings. To our surprise, the evaluation showed that the simple models outperform all recent GNN models in terms of the Mean Reciprocal Rank, which we used as an optimization criterion, and were only outperformed in three cases in terms of the Hit Rate. Additional analyses furthermore reveal that several other factors that are often not deeply discussed in papers, e.g., random seeds, can markedly impact the performance of GNN-based models. Our results therefore (a) point to continuing issues in the community in terms of research methodology and (b) indicate that there is ample room for improvement in session-based recommendation.

arxiv情報

著者 Faisal Shehzad,Dietmar Jannach
発行日 2024-07-18 13:02:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク