要約
Visual Question Answering (VQA) は、入力画像から質問に答え、画像の内容を意味的に理解し、自然言語で回答するマルチモーダル タスクです。
災害管理に VQA を使用することは、VQA システムによって解決される問題の範囲のため、重要な研究分野です。
ただし、主な課題は、影響を受ける地域の評価におけるラベルの生成によって引き起こされる遅延です。
これに取り組むために、ビジュアルと画像のペアでトレーニングされた事前トレーニング済みの CLIP モデルをデプロイしました。
ただし、経験的に、モデルのゼロ ショット パフォーマンスが低いことがわかります。
したがって、代わりに、このモデルから事前にトレーニングされたテキストと画像の埋め込みを教師付きトレーニングに使用し、FloodNet データセットでの以前の最先端の結果を上回ります。
これを、より現実的なシナリオである継続的な設定に拡張します。
さまざまな経験再生方法を使用して、壊滅的な忘却の問題に取り組みます。
トレーニングの実行は、https://wandb.ai/compyle/continual_vqa_final で入手できます。
要約(オリジナル)
Visual Question Answering (VQA) is a multi-modal task that involves answering questions from an input image, semantically understanding the contents of the image and answering it in natural language. Using VQA for disaster management is an important line of research due to the scope of problems that are answered by the VQA system. However, the main challenge is the delay caused by the generation of labels in the assessment of the affected areas. To tackle this, we deployed pre-trained CLIP model, which is trained on visual-image pairs. however, we empirically see that the model has poor zero-shot performance. Thus, we instead use pre-trained embeddings of text and image from this model for our supervised training and surpass previous state-of-the-art results on the FloodNet dataset. We expand this to a continual setting, which is a more real-life scenario. We tackle the problem of catastrophic forgetting using various experience replay methods. Our training runs are available at: https://wandb.ai/compyle/continual_vqa_final
arxiv情報
著者 | Aditya Kane,V Manushree,Sahil Khose |
発行日 | 2022-09-21 12:45:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google