Efficient Multimodal Fusion via Interactive Prompting

要約

タイトル:インタラクティブプロンプティングによる効率的なマルチモーダル融合

要約:
– 大規模な事前学習により、コンピュータービジョンや自然言語処理などの単一モーダル分野も新しい時代に入りました。
– 同様の傾向に従い、マルチモーダル学習モデルのサイズが常に増大しているため、ダウンストリームタスクのためにこれらのモデルを微調整する巨大な計算コストを削減する必要性が急速に高まっています。
– 本論文では、柔軟で効率的なマルチモーダル融合手法であるPMFを提案します。
– 具体的には、異なるモダリティ間の相互作用を促進し、高い柔軟性を示すモジュラーマルチモーダル融合フレームワークを最初に提供します。
– また、バニラプロンプトを3種類に分割して、マルチモーダル学習のための異なる最適化目標を学習することを提案します。
– また、プロンプトベクトルを単一モーダル変換器の深層層のみに追加することを提案し、トレーニングメモリ使用率を大幅に削減します。
– 実験結果は、提案手法が、訓練可能なパラメータが3%未満であり、トレーニングメモリ使用量が最大で66%節約されるいくつかの他のマルチモーダル微調整手法と同等の性能を実現することを示しています。

要約(オリジナル)

Large-scale pre-training has brought unimodal fields such as computer vision and natural language processing to a new era. Following this trend, the size of multi-modal learning models constantly increases, leading to an urgent need to reduce the massive computational cost of finetuning these models for downstream tasks. In this paper, we propose an efficient and flexible multimodal fusion method, namely PMF, tailored for fusing unimodally pre-trained transformers. Specifically, we first present a modular multimodal fusion framework that exhibits high flexibility and facilitates mutual interactions among different modalities. In addition, we disentangle vanilla prompts into three types in order to learn different optimizing objectives for multimodal learning. It is also worth noting that we propose to add prompt vectors only on the deep layers of the unimodal transformers, thus significantly reducing the training memory usage. Experiment results show that our proposed method achieves comparable performance to several other multimodal finetuning methods with less than 3% trainable parameters and up to 66% saving of training memory usage.

arxiv情報

著者 Yaowei Li,Ruijie Quan,Linchao Zhu,Yi Yang
発行日 2023-04-13 07:31:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク