An Efficient Attention Mechanism for Sequential Recommendation Tasks: HydraRec

要約

変換器ベースのモデルは、レコメンダーシステム(RS)を含む様々な領域でますます使用されるようになってきている。BERTのような事前訓練された変換器モデルは、言語モデリングにおいて優れた性能を示している。逐次的なタスクをモデル化する能力が向上したことで、エンコーダのみのモデル(BERT4Rec、SASRecなど)の亜種が、逐次的なRS問題で成功を収めている。従来の変換器モデルにおけるドット積アテンションの計算は、シーケンスの長さに対して2次的な複雑さを持つ。言語モデルとは異なり、カタログには毎日新しいアイテムが追加されるため、これはRSではより大きな問題となる。ユーザーの購買履歴は複数の要因に依存する動的なシーケンスである。最近、様々な線形注意モデルが、モデルをシーケンス長(トークン次元)に対して線形にすることで、この問題を解決しようとしている。Hydra注意は、視覚変換器のために提案されたそのような線形複雑性モデルの一つであり、トークンの数とモデル埋め込み次元の両方に対して注意の複雑性を低減する。このHydra attentionの考え方に基づき、我々は、より長いシーケンスや大きなデータセットに対して、時間的コンテキストを保持しつつ、注意の計算の理論的複雑さを大幅に改善する、効率的なトランスフォーマーに基づくシーケンシャルRS(HydraRec)を導入する。他の線形変換器ベースのRSモデルを評価するために広範な実験を行い、様々な評価指標においてHydraRecと比較した。HydraRecは、逐次推薦の次アイテム予測タスクに因果マスキングを使用した場合、ドット積ベースのアテンションモデルと同様に、他の線形アテンションベースモデルを凌駕する。双方向モデルの場合、HydraRecの性能はBERT4Recモデルに匹敵し、実行時間は改善されている。

要約(オリジナル)

Transformer based models are increasingly being used in various domains including recommender systems (RS). Pretrained transformer models such as BERT have shown good performance at language modelling. With the greater ability to model sequential tasks, variants of Encoder-only models (like BERT4Rec, SASRec etc.) have found success in sequential RS problems. Computing dot-product attention in traditional transformer models has quadratic complexity in sequence length. This is a bigger problem with RS because unlike language models, new items are added to the catalogue every day. User buying history is a dynamic sequence which depends on multiple factors. Recently, various linear attention models have tried to solve this problem by making the model linear in sequence length (token dimensions). Hydra attention is one such linear complexity model proposed for vision transformers which reduces the complexity of attention for both the number of tokens as well as model embedding dimensions. Building on the idea of Hydra attention, we introduce an efficient Transformer based Sequential RS (HydraRec) which significantly improves theoretical complexity of computing attention for longer sequences and bigger datasets while preserving the temporal context. Extensive experiments are conducted to evaluate other linear transformer-based RS models and compared with HydraRec across various evaluation metrics. HydraRec outperforms other linear attention-based models as well as dot-product based attention models when used with causal masking for sequential recommendation next item prediction tasks. For bi-directional models its performance is comparable to the BERT4Rec model with an improvement in running time.

arxiv情報

著者 Uzma Mushtaque
発行日 2025-01-02 13:03:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.IR パーマリンク