Multimodal Prompting with Missing Modalities for Visual Recognition

要約

このホワイト ペーパーでは、視覚認識のためのマルチモーダル学習における 2 つの課題に取り組みます。
2) 重い変圧器モデルを微調整するための計算リソースが利用できない場合。
この目的のために、プロンプト ラーニングを利用し、上記の 2 つの課題を一緒に軽減することを提案します。
具体的には、モダリティ欠落認識プロンプトをマルチモーダル トランスフォーマーにプラグインして、モダリティ欠落の一般的なケースを処理できますが、モデル全体のトレーニングと比較して、必要な学習可能なパラメーターは 1% 未満です。
さらに、さまざまなプロンプト構成の影響を調査し、欠落しているモダリティに対する堅牢性を分析します。
大量のモデルの再トレーニングの要件を軽減しながら、さまざまなモダリティの欠落のケースでパフォーマンスを向上させる、迅速な学習フレームワークの有効性を示すために、広範な実験が行われます。
コードが利用可能です。

要約(オリジナル)

In this paper, we tackle two challenges in multimodal learning for visual recognition: 1) when missing-modality occurs either during training or testing in real-world situations; and 2) when the computation resources are not available to finetune on heavy transformer models. To this end, we propose to utilize prompt learning and mitigate the above two challenges together. Specifically, our modality-missing-aware prompts can be plugged into multimodal transformers to handle general missing-modality cases, while only requiring less than 1% learnable parameters compared to training the entire model. We further explore the effect of different prompt configurations and analyze the robustness to missing modality. Extensive experiments are conducted to show the effectiveness of our prompt learning framework that improves the performance under various missing-modality cases, while alleviating the requirement of heavy model re-training. Code is available.

arxiv情報

著者 Yi-Lun Lee,Yi-Hsuan Tsai,Wei-Chen Chiu,Chen-Yu Lee
発行日 2023-03-09 18:52:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク