Dynamic Task and Weight Prioritization Curriculum Learning for Multimodal Imagery

要約

この論文では、カリキュラム学習方法で訓練されたマルチモーダル深層学習モデルを使用した災害後の分析について検討します。
災害後の分析を研究することは、被害の程度とリソースの配分についてタイムリーかつ正確な洞察を提供することで災害の影響を軽減する上で重要な役割を果たすため、重要です。
マルチモーダル深層学習モデルのパフォーマンスを向上させるためのカリキュラム学習戦略を提案します。
カリキュラム学習は、ますます複雑になるデータに基づいて深層学習モデルをトレーニングすることにより、人間の教育における漸進的な学習シーケンスをエミュレートします。
私たちの主な目的は、FloodNet\脚注{https
://github.com/BinaLab/FloodNet-Challenge-EARTHVISION2021} データセット。
これを実現するために、セマンティック セグメンテーションと画像エンコードに U-Net モデルが使用されます。
カスタム構築されたテキスト分類子は、視覚的な質問応答に使用されます。
既存のカリキュラム学習方法は、手動で定義された難易度関数に依存しています。
動的タスクと重みの優先順位付け (DATWEP) と呼ばれる新しいカリキュラム学習アプローチを導入します。これは、勾配ベースの方法を活用して、カリキュラム学習トレーニング中にタスクの難易度を自動的に決定し、それによって明示的な難易度の計算の必要性を排除します。
DATWEP をマルチモーダル モデルに統合すると、VQA のパフォーマンスが向上することがわかります。
ソースコードは https://github.com/fualsan/DATWEP で入手できます。

要約(オリジナル)

This paper explores post-disaster analytics using multimodal deep learning models trained with curriculum learning method. Studying post-disaster analytics is important as it plays a crucial role in mitigating the impact of disasters by providing timely and accurate insights into the extent of damage and the allocation of resources. We propose a curriculum learning strategy to enhance the performance of multimodal deep learning models. Curriculum learning emulates the progressive learning sequence in human education by training deep learning models on increasingly complex data. Our primary objective is to develop a curriculum-trained multimodal deep learning model, with a particular focus on visual question answering (VQA) capable of jointly processing image and text data, in conjunction with semantic segmentation for disaster analytics using the FloodNet\footnote{https://github.com/BinaLab/FloodNet-Challenge-EARTHVISION2021} dataset. To achieve this, U-Net model is used for semantic segmentation and image encoding. A custom built text classifier is used for visual question answering. Existing curriculum learning methods rely on manually defined difficulty functions. We introduce a novel curriculum learning approach termed Dynamic Task and Weight Prioritization (DATWEP), which leverages a gradient-based method to automatically decide task difficulty during curriculum learning training, thereby eliminating the need for explicit difficulty computation. The integration of DATWEP into our multimodal model shows improvement on VQA performance. Source code is available at https://github.com/fualsan/DATWEP.

arxiv情報

著者 Huseyin Fuat Alsan,Taner Arsan
発行日 2023-10-29 18:46:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク