Scaling Sequential Recommendation Models with Transformers

要約

ユーザーの好みのモデリングは、主に、システム内で利用可能なさまざまな要素とのユーザーの対話履歴を調べることによって対処されてきました。
逐次レコメンデーションの主な目的は、履歴データに基づいてコンテンツを個人の好みに合わせて調整することです。
問題の性質と、さまざまなドメインで良好なパフォーマンスが観察されたため、トランスフォーマー アーキテクチャの使用が動機付けられました。トランスフォーマー アーキテクチャは、モデル パラメーターの数の増加に伴う、ますます大量のトレーニング データを活用するのに効果的であることが証明されています。
このスケーリング動作は、さらに大規模なモデルの設計とトレーニングに貴重な指針を提供するため、大きな注目を集めています。
大規模な言語モデルのトレーニングで観察されるスケーリングの法則からインスピレーションを得て、順次推奨するための同様の原則を探ります。
私たちは、他の研究では部分的にしか調査されていない完全な Amazon Product Data データセットを使用し、言語モデルで見られるものと同様のスケーリング動作を明らかにします。
コンピューティング最適化トレーニングは可能ですが、アプリケーションに固有のコンピューティング パフォーマンスのトレードオフを注意深く分析する必要があります。
また、より小さなタスク固有のドメインで大規模な事前トレーニング済みモデルを微調整することにより、パフォーマンスのスケーリングが下流のタスクに反映されることも示します。
私たちのアプローチと調査結果は、実際の高次元優先空間でのモデルのトレーニングと展開のための戦略的なロードマップを提供し、トレーニングと推論の効率の向上を促進します。
この論文が、トランスフォーマーの可能性と、現実世界のレコメンダー システムにおける高次元の逐次レコメンデーションの本質的な複雑さとの間のギャップを埋めることができれば幸いです。
コードとモデルは https://github.com/mercadolibre/srt で見つけることができます。

要約(オリジナル)

Modeling user preferences has been mainly addressed by looking at users’ interaction history with the different elements available in the system. Tailoring content to individual preferences based on historical data is the main goal of sequential recommendation. The nature of the problem, as well as the good performance observed across various domains, has motivated the use of the transformer architecture, which has proven effective in leveraging increasingly larger amounts of training data when accompanied by an increase in the number of model parameters. This scaling behavior has brought a great deal of attention, as it provides valuable guidance in the design and training of even larger models. Taking inspiration from the scaling laws observed in training large language models, we explore similar principles for sequential recommendation. We use the full Amazon Product Data dataset, which has only been partially explored in other studies, and reveal scaling behaviors similar to those found in language models. Compute-optimal training is possible but requires a careful analysis of the compute-performance trade-offs specific to the application. We also show that performance scaling translates to downstream tasks by fine-tuning larger pre-trained models on smaller task-specific domains. Our approach and findings provide a strategic roadmap for model training and deployment in real high-dimensional preference spaces, facilitating better training and inference efficiency. We hope this paper bridges the gap between the potential of transformers and the intrinsic complexities of high-dimensional sequential recommendation in real-world recommender systems. Code and models can be found at https://github.com/mercadolibre/srt

arxiv情報

著者 Pablo Zivic,Hernan Vazquez,Jorge Sanchez
発行日 2024-12-10 15:20:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク