要約
近年、マルチモーダル大規模モデルの大幅な進化により、多くのレコメンダー研究者がユーザー関心モデリングにおけるマルチモーダル情報の可能性に気づきました。
業界で広く使用されているモデリング アーキテクチャは、カスケード パラダイムです。(1) まず、マルチモーダル モデルを事前トレーニングして、ダウンストリーム サービスの全能な表現を提供します。
(2) 下流の推奨モデルは、実際のユーザーアイテムの行動に適合させるための追加入力としてマルチモーダル表現を受け取ります。
このようなパラダイムは顕著な改善を達成しますが、モデルのパフォーマンスを制限する 2 つの問題が依然として存在します。 (1) 表現の不一致: 事前トレーニングされたマルチモーダル モデルは常に古典的な NLP/CV タスクによって監視されますが、レコメンデーション モデルは監視されます。
実際のユーザーとアイテムのインタラクションによって。
その結果、2 つの根本的に異なるタスクの目標は比較的分離され、それらの表現には一貫した目標が欠けていました。
(2) 表現の非学習: 生成されたマルチモーダル表現は常にキャッシュ ストアに保存され、推奨モデルの追加の固定入力として機能するため、推奨モデルの勾配によって更新できず、下流のトレーニングにはさらに不向きです。
下流タスクの使用における 2 つの困難な課題に触発され、さまざまな下流モデルに特化したトレーニング可能なマルチモーダル情報をカスタマイズするための定量的マルチモーダル フレームワークを導入します。
要約(オリジナル)
In recent years, with the significant evolution of multi-modal large models, many recommender researchers realized the potential of multi-modal information for user interest modeling. In industry, a wide-used modeling architecture is a cascading paradigm: (1) first pre-training a multi-modal model to provide omnipotent representations for downstream services; (2) The downstream recommendation model takes the multi-modal representation as additional input to fit real user-item behaviours. Although such paradigm achieves remarkable improvements, however, there still exist two problems that limit model performance: (1) Representation Unmatching: The pre-trained multi-modal model is always supervised by the classic NLP/CV tasks, while the recommendation models are supervised by real user-item interaction. As a result, the two fundamentally different tasks’ goals were relatively separate, and there was a lack of consistent objective on their representations; (2) Representation Unlearning: The generated multi-modal representations are always stored in cache store and serve as extra fixed input of recommendation model, thus could not be updated by recommendation model gradient, further unfriendly for downstream training. Inspired by the two difficulties challenges in downstream tasks usage, we introduce a quantitative multi-modal framework to customize the specialized and trainable multi-modal information for different downstream models.
arxiv情報
著者 | Xinchen Luo,Jiangxia Cao,Tianyu Sun,Jinkai Yu,Rui Huang,Wei Yuan,Hezheng Lin,Yichen Zheng,Shiyao Wang,Qigen Hu,Changqing Qiu,Jiaqi Zhang,Xu Zhang,Zhiheng Yan,Jingming Zhang,Simin Zhang,Mingxing Wen,Zhaojie Liu,Kun Gai,Guorui Zhou |
発行日 | 2024-11-18 17:08:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google