Our Model Achieves Excellent Performance on MovieLens: What Does it Mean?

要約

レコメンダー システム (RecSys) 評価用の一般的なベンチマーク データセットは、一定期間内にプラットフォーム上で生成されたユーザーとアイテムのインタラクションで構成されます。
インタラクション生成メカニズムは、ユーザーがアイテムとインタラクションする理由 (いいね、購入、評価など) と、特定のインタラクションが発生したときのコンテキストを部分的に説明します。
この研究では、MovieLens データセットに対して綿密な分析を実施し、推奨アルゴリズムを評価するためにデータセットを使用する場合の潜在的な影響について説明します。
分析からいくつかの主な発見が得られます。
まず、ユーザーが MovieLens プラットフォームを操作するときのさまざまな段階でのユーザー操作には大きな違いがあります。
初期のインタラクションは主に、その後のインタラクションに影響を与えるユーザー像を定義します。
第 2 に、ユーザー インタラクションは、プラットフォームの内部推奨アルゴリズムによって推奨される候補映画によって大きく影響されます。
ユーザーの最後の数回のインタラクションに近い部分で発生したインタラクションを削除すると、ユーザーの好みを学習することが難しくなり、推奨精度が低下します。
第三に、ユーザー インタラクションの順序を変更すると、逐次アルゴリズムが漸進的なインタラクション プロセスを捕捉することがより困難になります。
これらの発見に基づいて、MovieLens システムで採用されているインタラクション生成メカニズムと、典型的な現実世界の推奨シナリオのメカニズムとの間の矛盾についてさらに議論します。
要約すると、MovieLens データセットで優れたレコメンデーション精度を達成するモデルは、少なくとも 2 種類の違いについては、実際には優れたパフォーマンスを示さない可能性があります: (i) ユーザーとアイテムのインタラクション生成のコンテキストの違い、および (ii) ユーザーとアイテムのインタラクション生成のコンテキストの違い
アイテムコレクションに関するユーザーの知識。

要約(オリジナル)

A typical benchmark dataset for recommender system (RecSys) evaluation consists of user-item interactions generated on a platform within a time period. The interaction generation mechanism partially explains why a user interacts with (e.g.,like, purchase, rate) an item, and the context of when a particular interaction happened. In this study, we conduct a meticulous analysis on the MovieLens dataset and explain the potential impact on using the dataset for evaluating recommendation algorithms. We make a few main findings from our analysis. First, there are significant differences in user interactions at the different stages when a user interacts with the MovieLens platform. The early interactions largely define the user portrait which affect the subsequent interactions. Second, user interactions are highly affected by the candidate movies that are recommended by the platform’s internal recommendation algorithm(s). Removal of interactions that happen nearer to the last few interactions of a user leads to increasing difficulty in learning user preference, thus deteriorating recommendation accuracy. Third, changing the order of user interactions makes it more difficult for sequential algorithms to capture the progressive interaction process. Based on these findings, we further discuss the discrepancy between the interaction generation mechanism that is employed by the MovieLens system and that of typical real world recommendation scenarios. In summary, models that achieve excellent recommendation accuracy on the MovieLens dataset may not demonstrate superior performance in practice for at least two kinds of differences: (i) the differences in the contexts of user-item interaction generation, and (ii) the differences in user knowledge about the item collections.

arxiv情報

著者 Yu-chen Fan,Yitong Ji,Jie Zhang,Aixin Sun
発行日 2023-07-19 13:44:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク