Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding

要約

単なる表面的なコンテンツ関係マイニングを超えた、マルチモーダルな意味論的な深い理解が、人工知能の分野でますます注目を集めています。
高品質のマルチモーダル データを収集して注釈を付けるという課題は、少数ショット学習の重要性を強調しています。
このホワイトペーパーでは、このような状況の下で、少数ショットのマルチモーダル皮肉検出 (MSD) とマルチモーダル感情分析 (MSA) という 2 つの重要なタスクに焦点を当てます。
これらに対処するために、私たちは、統合ビジョン言語モデル (VLM) に基づく新しいマルチモーダル ソフト プロンプト フレームワークである、Mixture-of-Prompt-Experts with Block-Aware Prompt Fusion (MoPE-BAF) を提案します。
具体的には、ソフト プロンプトの 3 つのエキスパートを設計します。1 つはモダリティ固有の特徴を抽出して単一モーダル表現を強化するテキスト プロンプトと画像プロンプト、もう 1 つはマルチモーダル インタラクションを支援する統合プロンプトです。
さらに、Transformer レイヤーをいくつかのブロックに再編成し、隣接するブロック間にクロスモーダル プロンプト アテンションを導入します。これにより、シングルモーダル表現からマルチモーダル フュージョンへの移行がスムーズになります。
少数ショット設定の MSD と MSA の両方のデータセットにおいて、私たちが提案したモデルは、わずか 2% のパラメーター (150M) で 8.2B モデル InstructBLIP を上回るだけでなく、VLM またはタスク固有のメソッドで広く使用されている他のプロンプトメソッドよりも大幅に優れています。

要約(オリジナル)

Deep multimodal semantic understanding that goes beyond the mere superficial content relation mining has received increasing attention in the realm of artificial intelligence. The challenges of collecting and annotating high-quality multi-modal data have underscored the significance of few-shot learning. In this paper, we focus on two critical tasks under this context: few-shot multi-modal sarcasm detection (MSD) and multi-modal sentiment analysis (MSA). To address them, we propose Mixture-of-Prompt-Experts with Block-Aware Prompt Fusion (MoPE-BAF), a novel multi-modal soft prompt framework based on the unified vision-language model (VLM). Specifically, we design three experts of soft prompts: a text prompt and an image prompt that extract modality-specific features to enrich the single-modal representation, and a unified prompt to assist multi-modal interaction. Additionally, we reorganize Transformer layers into several blocks and introduce cross-modal prompt attention between adjacent blocks, which smoothens the transition from single-modal representation to multi-modal fusion. On both MSD and MSA datasets in few-shot setting, our proposed model not only surpasses the 8.2B model InstructBLIP with merely 2% parameters (150M), but also significantly outperforms other widely-used prompt methods on VLMs or task-specific methods.

arxiv情報

著者 Zichen Wu,HsiuYuan Huang,Fanyi Qu,Yunfang Wu
発行日 2024-03-17 19:12:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MM パーマリンク