要約
マルチモーダル転移学習は、効果的なマルチモーダル融合のために、さまざまなモダリティの事前学習済み表現を共通ドメイン空間に変換することを目的としています。
ただし、従来のシステムは通常、すべてのモダリティが存在するという前提に基づいて構築されており、モダリティの欠如は常に推論パフォーマンスの低下につながります。
さらに、すべてのモダリティの事前トレーニング済み埋め込みを抽出することは、推論の計算効率が低くなります。
この研究では、高効率パフォーマンスのマルチモーダル転移学習を実現するために、ビデオで強化されたプロンプトのマルチモーダル知識をマルチモーダル基本モデル (教師) から特定のモーダル基本モデル (生徒) に転移するためのビデオ知識蒸留手法である VideoAdviser を提案します。
最高の学習パフォーマンスは専門のアドバイザーと賢い生徒によってもたらされるという直観により、CLIP ベースの教師モデルを使用して、ステップ蒸留目標損失の最適化を通じて表現力豊かなマルチモーダルな知識監督信号を RoBERTa ベースの生徒モデルに提供します (最初のステップ)
: 教師は、ビデオで強化されたプロンプトのマルチモーダルな知識を分類ロジットから回帰ロジットに抽出します。第 2 ステップ: マルチモーダルな知識は、教師の回帰ロジットから生徒に抽出されます。
私たちは、ビデオレベルのセンチメント分析 (MOSI および MOSEI データセット) とオーディオビジュアル検索 (VEGAS データセット) という 2 つの困難なマルチモーダル タスクでメソッドを評価します。
学生 (入力としてテキスト モダリティのみを必要とする) は、MOSI と MOSEI で最大 12.3% の MAE スコア向上を達成しました。
私たちの方法は、推論のための追加の計算を行わずに、VEGAS の mAP スコアを 3.4% 向上させることで最先端の方法をさらに強化します。
これらの結果は、高効率かつ高パフォーマンスのマルチモーダル転移学習を実現するための私たちの手法の強みを示唆しています。
要約(オリジナル)
Multimodal transfer learning aims to transform pretrained representations of diverse modalities into a common domain space for effective multimodal fusion. However, conventional systems are typically built on the assumption that all modalities exist, and the lack of modalities always leads to poor inference performance. Furthermore, extracting pretrained embeddings for all modalities is computationally inefficient for inference. In this work, to achieve high efficiency-performance multimodal transfer learning, we propose VideoAdviser, a video knowledge distillation method to transfer multimodal knowledge of video-enhanced prompts from a multimodal fundamental model (teacher) to a specific modal fundamental model (student). With an intuition that the best learning performance comes with professional advisers and smart students, we use a CLIP-based teacher model to provide expressive multimodal knowledge supervision signals to a RoBERTa-based student model via optimizing a step-distillation objective loss — first step: the teacher distills multimodal knowledge of video-enhanced prompts from classification logits to a regression logit — second step: the multimodal knowledge is distilled from the regression logit of the teacher to the student. We evaluate our method in two challenging multimodal tasks: video-level sentiment analysis (MOSI and MOSEI datasets) and audio-visual retrieval (VEGAS dataset). The student (requiring only the text modality as input) achieves an MAE score improvement of up to 12.3% for MOSI and MOSEI. Our method further enhances the state-of-the-art method by 3.4% mAP score for VEGAS without additional computations for inference. These results suggest the strengths of our method for achieving high efficiency-performance multimodal transfer learning.
arxiv情報
著者 | Yanan Wang,Donghuo Zeng,Shinya Wada,Satoshi Kurihara |
発行日 | 2023-09-27 08:44:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google