Memory-Inspired Temporal Prompt Interaction for Text-Image Classification

要約

近年、視覚と言語のモダリティを統合するための大規模な事前トレーニング済みマルチモーダル モデル (LMM) が一般的に出現し、さまざまな自然言語処理やコンピューター ビジョンのタスクで大きな成功を収めています。
ただし、LMM のサイズが増大すると、下流タスク用にこれらのモデルを微調整するための計算コストが大幅に増加します。
したがって、モダリティをより効率的に調整するために、プロンプトベースのインタラクション戦略が研究されています。
このコンテックスでは、人間の記憶戦略にヒントを得た、新しいプロンプトベースのマルチモーダルインタラクション戦略、すなわち、記憶にインスピレーションを得た時間的プロンプトインタラクション (MITP) を提案します。
私たちが提案する方法には、人間の記憶戦略と同様に、獲得段階と定着および活性化段階の 2 つの段階が含まれます。
中間層の時間的プロンプトを利用して獲得段階を模倣し、類似性に基づくプロンプトインタラクションを活用して記憶の統合を模倣し、プロンプト生成戦略を採用して記憶の活性化を模倣します。
私たちの論文の主な強みは、圧縮された訓練可能なパラメータとメモリ使用量を使用して、モダリティ間の十分な情報交換を活用するために、中間層でプロンプトベクトルを相互作用させることです。
メモリ使用量が比較的少なく、トレーニング可能なパラメータが 200 万個 (事前トレーニングされた基礎モデルの約 1%) のいくつかのデータセットで、競合する結果を達成しました。

要約(オリジナル)

In recent years, large-scale pre-trained multimodal models (LMM) generally emerge to integrate the vision and language modalities, achieving considerable success in various natural language processing and computer vision tasks. The growing size of LMMs, however, results in a significant computational cost for fine-tuning these models for downstream tasks. Hence, prompt-based interaction strategy is studied to align modalities more efficiently. In this contex, we propose a novel prompt-based multimodal interaction strategy inspired by human memory strategy, namely Memory-Inspired Temporal Prompt Interaction (MITP). Our proposed method involves in two stages as in human memory strategy: the acquiring stage, and the consolidation and activation stage. We utilize temporal prompts on intermediate layers to imitate the acquiring stage, leverage similarity-based prompt interaction to imitate memory consolidation, and employ prompt generation strategy to imitate memory activation. The main strength of our paper is that we interact the prompt vectors on intermediate layers to leverage sufficient information exchange between modalities, with compressed trainable parameters and memory usage. We achieve competitive results on several datasets with relatively small memory usage and 2.0M of trainable parameters (about 1% of the pre-trained foundation model).

arxiv情報

著者 Xinyao Yu,Hao Sun,Ziwei Niu,Rui Qin,Zhenjia Bai,Yen-Wei Chen,Lanfen Lin
発行日 2024-01-26 13:36:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク