IISAN: Efficiently Adapting Multimodal Representation for Sequential Recommendation with Decoupled PEFT

要約

マルチモーダル基盤モデルは、強力な表現学習機能を活用して、逐次レコメンダー システムに変革をもたらします。
パラメータ効率の高い微調整 (PEFT) は、基礎モデルを推奨タスクに適応させるために一般的に使用されますが、ほとんどの研究ではパラメータの効率が優先され、GPU メモリ効率やトレーニング速度などの重要な要素が見落とされることがよくあります。
このギャップに対処するために、私たちの論文では、分離された PEFT 構造を使用し、イントラモーダル適応とインターモーダル適応の両方を活用するシンプルなプラグ アンド プレイ アーキテクチャである IISAN (マルチモーダル表現のためのイントラモーダルおよびインターモーダル側適応ネットワーク) を紹介します。
IISAN は、フル ファインチューニング (FFT) および最先端の PEFT のパフォーマンスに匹敵します。
さらに重要なことは、GPU メモリの使用量が大幅に削減されることです (マルチモーダルな逐次レコメンデーション タスクの場合、47 GB からわずか 3 GB に減少します)。
さらに、FFT と比較して、エポックあたりのトレーニング時間が 443 秒から 22 秒に短縮されます。
これは、トレーニングに 37 ~ 39 GB の GPU メモリとエポックあたり 350 ~ 380 秒を必要とするアダプターと LoRA に比べて顕著な改善でもあります。
さらに、「パラメータ効率が全体の効率を表す」という一般的な誤解を軽減するために、新しい複合効率指標である TPME (トレーニング時間、パラメータ、および GPU メモリ効率) を提案します。
TPME は、さまざまな方法間の実際の効率比較について、より包括的な洞察を提供します。
さらに、すべての PEFT および FFT アプローチのアクセス可能な効率分析を提供し、IISAN の優位性を実証します。
コードやその他の資料は https://github.com/jjGenAILab/IISAN でリリースされています。

要約(オリジナル)

Multimodal foundation models are transformative in sequential recommender systems, leveraging powerful representation learning capabilities. While Parameter-efficient Fine-tuning (PEFT) is commonly used to adapt foundation models for recommendation tasks, most research prioritizes parameter efficiency, often overlooking critical factors like GPU memory efficiency and training speed. Addressing this gap, our paper introduces IISAN (Intra- and Inter-modal Side Adapted Network for Multimodal Representation), a simple plug-and-play architecture using a Decoupled PEFT structure and exploiting both intra- and inter-modal adaptation. IISAN matches the performance of full fine-tuning (FFT) and state-of-the-art PEFT. More importantly, it significantly reduces GPU memory usage – from 47GB to just 3GB for multimodal sequential recommendation tasks. Additionally, it accelerates training time per epoch from 443s to 22s compared to FFT. This is also a notable improvement over the Adapter and LoRA, which require 37-39 GB GPU memory and 350-380 seconds per epoch for training. Furthermore, we propose a new composite efficiency metric, TPME (Training-time, Parameter, and GPU Memory Efficiency) to alleviate the prevalent misconception that ‘parameter efficiency represents overall efficiency’. TPME provides more comprehensive insights into practical efficiency comparisons between different methods. Besides, we give an accessible efficiency analysis of all PEFT and FFT approaches, which demonstrate the superiority of IISAN. We release our codes and other materials at https://github.com/jjGenAILab/IISAN.

arxiv情報

著者 Junchen Fu,Xuri Ge,Xin Xin,Alexandros Karatzoglou,Ioannis Arapakis,Jie Wang,Joemon M Jose
発行日 2024-04-02 15:58:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR パーマリンク