要約
順次推奨(SR)タスクには、過去の相互作用を考慮して、ユーザーが対話する可能性が高い次のアイテムの予測が含まれます。
SRモデルは、より複雑な行動パターンと時間的ダイナミクスを識別するために、ユーザーのアクションのシーケンスを調べます。
最近の研究では、LLMSが順次推奨システムに大きな影響を与え、言語モデリングと順次推奨を表示するか、ユーザー表現のバックボーンとして機能します。
これらの方法は優れたパフォーマンスを提供しますが、特に順次推奨シーンでは、大規模な言語モデルの必要性と言語モデルの必要性がわずかにあることと言語モデルがどれだけ大きいかという証拠がほとんどあります。
一方、LLMのサイズが大きいため、毎日何十億ものトラフィックログを処理する必要がある実際のプラットフォームにLLMベースのモデルを適用することは非効率的で非実用的です。
この論文では、大規模な産業データセットで広範な実験を実施することにより、LLMSの深さの影響を調査します。
驚くべきことに、私たちの動機付けの実験は、LLMの中間層のほとんどが冗長であることを明らかにしており、残りの層を剪定すると強力なパフォーマンスを維持できることを示しています。
この洞察に動機付けられて、私たちはSRの小さな言語モデル、すなわちSLMRECを強化します。
さらに、SLMRECは、量子化や剪定など、他のトレーニング後効率技術に直交するため、組み合わせて活用できます。
包括的な実験結果は、提案されたSLMRECモデルが、LLMベースの推奨モデルで見つかったパラメーターの13%のみを使用して最高のパフォーマンスを達成すると同時に、トレーニング時間と推論時間コストでそれぞれ最大6.6倍と8.0倍のスピードアップを達成することを示しています。
その上、私たちは、SRの大規模な言語モデルと同等に実行できる理由についての理論的正当性を提供します。
要約(オリジナル)
Sequential Recommendation (SR) task involves predicting the next item a user is likely to interact with, given their past interactions. The SR models examine the sequence of a user’s actions to discern more complex behavioral patterns and temporal dynamics. Recent research demonstrates the great impact of LLMs on sequential recommendation systems, either viewing sequential recommendation as language modeling or serving as the backbone for user representation. Although these methods deliver outstanding performance, there is scant evidence of the necessity of a large language model and how large the language model is needed, especially in the sequential recommendation scene. Meanwhile, due to the huge size of LLMs, it is inefficient and impractical to apply a LLM-based model in real-world platforms that often need to process billions of traffic logs daily. In this paper, we explore the influence of LLMs’ depth by conducting extensive experiments on large-scale industry datasets. Surprisingly, our motivational experiments reveal that most intermediate layers of LLMs are redundant, indicating that pruning the remaining layers can still maintain strong performance. Motivated by this insight, we empower small language models for SR, namely SLMRec, which adopt a simple yet effective knowledge distillation method. Moreover, SLMRec is orthogonal to other post-training efficiency techniques, such as quantization and pruning, so that they can be leveraged in combination. Comprehensive experimental results illustrate that the proposed SLMRec model attains the best performance using only 13% of the parameters found in LLM-based recommendation models while simultaneously achieving up to 6.6x and 8.0x speedups in training and inference time costs, respectively. Besides, we provide a theoretical justification for why small language models can perform comparably to large language models in SR.
arxiv情報
著者 | Wujiang Xu,Qitian Wu,Zujie Liang,Jiaojiao Han,Xuying Ning,Yunxiao Shi,Wenfang Lin,Yongfeng Zhang |
発行日 | 2025-01-27 15:12:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google