DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever

要約

近年、事前に学習された視覚言語モデルの大幅な進歩により、マルチモーダル対話システムの能力が大幅に向上している。これらのモデルは、下流のタスクで微調整を行うことにより、大幅な改善を示している。しかし、既存の事前学習済みモデルは、視覚と言語モダリティ間の整合を効果的に捉えることに主眼を置いており、対話コンテキストの複雑な性質を無視していることが多い。本稿では、マルチモーダル対話検索のためのパラメータ効率の良いプロンプトチューニング手法DialCLIPを提案する。具体的には、マルチモーダル文脈プロンプト生成器を導入し、文脈特徴を学習する。さらに、ドメインプロンプトを導入することで、下流の対話データからの矛盾を軽減する。様々なタイプの検索を容易にするため、CLIPの出力からマルチモーダル表現空間へのマッピングを学習する複数のエキスパートを設計し、各エキスパートは特定の検索タイプを担当する。広範な実験により、DialCLIPは2つの広く認知されたベンチマークデータセット(すなわち、PhotoChatとMMDialog)において、全パラメータのわずか0.04%のチューニングで最先端の性能を達成することが示された。これらの結果は、我々の提案するアプローチの有効性と効率性を浮き彫りにし、マルチモーダル対話検索の分野を発展させる可能性を強調している。

要約(オリジナル)

Recently, substantial advancements in pre-trained vision-language models have greatly enhanced the capabilities of multi-modal dialog systems. These models have demonstrated significant improvements by fine-tuning on downstream tasks. However, the existing pre-trained models primarily focus on effectively capturing the alignment between vision and language modalities, often ignoring the intricate nature of dialog context. In this paper, we propose a parameter-efficient prompt-tuning method named DialCLIP for multi-modal dialog retrieval. Specifically, our approach introduces a multi-modal context prompt generator to learn context features which are subsequently distilled into prompts within the pre-trained vision-language model CLIP. Besides, we introduce domain prompt to mitigate the disc repancy from the downstream dialog data. To facilitate various types of retrieval, we also design multiple experts to learn mappings from CLIP outputs to multi-modal representation space, with each expert being responsible to one specific retrieval type. Extensive experiments show that DialCLIP achieves state-of-the-art performance on two widely recognized benchmark datasets (i.e., PhotoChat and MMDialog) by tuning a mere 0.04% of the total parameters. These results highlight the efficacy and efficiency of our proposed approach, underscoring its potential to advance the field of multi-modal dialog retrieval.

arxiv情報

著者 Zhichao Yin,Binyuan Hui,Min Yang,Fei Huang,Yongbin Li
発行日 2024-01-03 02:13:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク