要約
本論文では、視覚認識のためのマルチモーダル学習における2つの課題に取り組む。1)実世界での学習時やテスト時にミッシングモダリティが発生する場合、2)重い変換モデルで微調整するための計算資源がない場合、である。そこで、本研究では、プロンプト学習を利用し、上記2つの課題を共に解決することを提案する。具体的には、モダリティミスを考慮したプロンプトをマルチモーダル変換器に組み込むことで、一般的なモダリティミスのケースを扱うことができ、モデル全体の学習と比較して、学習可能なパラメータは1%未満に抑えられる。さらに、異なるプロンプト構成の効果を探り、モダリティの欠落に対する頑健性を分析する。広範な実験を行い、モデルの再トレーニングの必要性を軽減しながら、様々な欠落モダリティのケースで性能を向上させる我々のプロンプト学習フレームワークの有効性を示すことができる。コードが公開されています。
要約(オリジナル)
In this paper, we tackle two challenges in multimodal learning for visual recognition: 1) when missing-modality occurs either during training or testing in real-world situations; and 2) when the computation resources are not available to finetune on heavy transformer models. To this end, we propose to utilize prompt learning and mitigate the above two challenges together. Specifically, our modality-missing-aware prompts can be plugged into multimodal transformers to handle general missing-modality cases, while only requiring less than 1% learnable parameters compared to training the entire model. We further explore the effect of different prompt configurations and analyze the robustness to missing modality. Extensive experiments are conducted to show the effectiveness of our prompt learning framework that improves the performance under various missing-modality cases, while alleviating the requirement of heavy model re-training. Code is available.
arxiv情報
著者 | Yi-Lun Lee,Yi-Hsuan Tsai,Wei-Chen Chiu,Chen-Yu Lee |
発行日 | 2023-03-06 18:54:46+00:00 |
arxivサイト | arxiv_id(pdf) |