要約
マルチモーダル意図認識は、表情、体の動き、口調などの多様なモダリティを活用してユーザーの意図を理解することを目的としており、現実世界のマルチモーダルなシナリオにおける人間の言語と行動を理解するための重要なタスクとなります。
それにもかかわらず、既存の方法の大部分は、異なるモダリティ間の潜在的な相関関係を無視しており、非言語モダリティから意味論的特徴を効果的に学習する際の独自の限界を無視しています。
この論文では、上記の課題に対処するために、モダリティを意識したプロンプティングを備えたトークンレベルの対照学習法 (TCL-MAP) を紹介します。
テキスト モダリティに最適なマルチモーダル セマンティック環境を確立するために、類似性に基づくモダリティ アラインメントとクロスモダリティ アテンション メカニズムを使用して、テキスト、ビデオ、オーディオ モダリティの特徴を効果的に調整および融合するモダリティ認識プロンプト モジュール (MAP) を開発します。
提案されたトークンレベルの対照学習フレームワーク (TCL) は、モダリティを意識したプロンプトおよびグラウンド トゥルース ラベルに基づいて、拡張サンプルを構築し、ラベル トークンで NT-Xent 損失を採用します。
具体的には、TCL は、インテント ラベルから得られる最適なテキストの意味論的な洞察を利用して、代わりに他のモダリティの学習プロセスを導きます。
広範な実験により、私たちの方法が最先端の方法と比較して顕著な改善を達成することが示されています。
さらに、アブレーション分析は、モダリティを意識したプロンプトが手作りのプロンプトよりも優れていることを示しており、これはマルチモーダルプロンプト学習にとって重要な意味を持っています。
コードは https://github.com/thuiar/TCL-MAP でリリースされています。
要約(オリジナル)
Multimodal intent recognition aims to leverage diverse modalities such as expressions, body movements and tone of speech to comprehend user’s intent, constituting a critical task for understanding human language and behavior in real-world multimodal scenarios. Nevertheless, the majority of existing methods ignore potential correlations among different modalities and own limitations in effectively learning semantic features from nonverbal modalities. In this paper, we introduce a token-level contrastive learning method with modality-aware prompting (TCL-MAP) to address the above challenges. To establish an optimal multimodal semantic environment for text modality, we develop a modality-aware prompting module (MAP), which effectively aligns and fuses features from text, video and audio modalities with similarity-based modality alignment and cross-modality attention mechanism. Based on the modality-aware prompt and ground truth labels, the proposed token-level contrastive learning framework (TCL) constructs augmented samples and employs NT-Xent loss on the label token. Specifically, TCL capitalizes on the optimal textual semantic insights derived from intent labels to guide the learning processes of other modalities in return. Extensive experiments show that our method achieves remarkable improvements compared to state-of-the-art methods. Additionally, ablation analyses demonstrate the superiority of the modality-aware prompt over the handcrafted prompt, which holds substantial significance for multimodal prompt learning. The codes are released at https://github.com/thuiar/TCL-MAP.
arxiv情報
著者 | Qianrui Zhou,Hua Xu,Hao Li,Hanlei Zhang,Xiaohan Zhang,Yifan Wang,Kai Gao |
発行日 | 2023-12-22 13:03:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google