MCF-VC: Mitigate Catastrophic Forgetting in Class-Incremental Learning for Multimodal Video Captioning

要約

逐次入力で古いカテゴリが見えなくなることによる壊滅的な忘却の問題に対処するために、比較的単純な分類タスクに基づいた既存の研究がある程度の進歩を遂げました。
対照的に、ビデオ キャプションの作成は、マルチモーダル シナリオではより複雑なタスクであり、増分学習の分野では検討されていません。
逐次入力によるビデオを分析する際のこの安定性可塑性の問題を特定した後、私たちは当初、マルチモーダルビデオキャプション (MCF-VC) のクラス増分学習における壊滅的な忘却を軽減する方法を提案しました。
マクロレベルで古いタスクの良好なパフォーマンスを効果的に維持するために、線形パラメータのマスクとフィッシャー感度に基づいて粒度の細かい感度選択 (FgSS) を設計し、古いタスクから有用な知識を選択します。
さらに、古いタスクと新しいタスクの知識特性を特定の機能レベルでより適切に制限するために、古いタスクを比較検討しながら新しいタスクを適切に学習できる二段階知識蒸留 (TsKD) を作成しました。
具体的には、セマンティック アテンション フィーチャ マップのクロスモーダル セマンティック情報と最終出力のテキスト情報をそれぞれ制約する 2 つの蒸留損失を設計し、古いクラスのモデル間およびモデル内の様式化された知識が学習中に保持されるようにします。
新しいクラス。
モデルの忘却に対する抵抗力を示すために、ステージの忘却率を検出するメトリクス CIDER_t を設計しました。
公開データセット MSR-VTT での実験では、提案された手法が古いサンプルを再生せずに以前のタスクを忘れることが大幅に防止され、新しいタスクでも良好に実行されることが示されています。

要約(オリジナル)

To address the problem of catastrophic forgetting due to the invisibility of old categories in sequential input, existing work based on relatively simple categorization tasks has made some progress. In contrast, video captioning is a more complex task in multimodal scenario, which has not been explored in the field of incremental learning. After identifying this stability-plasticity problem when analyzing video with sequential input, we originally propose a method to Mitigate Catastrophic Forgetting in class-incremental learning for multimodal Video Captioning (MCF-VC). As for effectively maintaining good performance on old tasks at the macro level, we design Fine-grained Sensitivity Selection (FgSS) based on the Mask of Linear’s Parameters and Fisher Sensitivity to pick useful knowledge from old tasks. Further, in order to better constrain the knowledge characteristics of old and new tasks at the specific feature level, we have created the Two-stage Knowledge Distillation (TsKD), which is able to learn the new task well while weighing the old task. Specifically, we design two distillation losses, which constrain the cross modal semantic information of semantic attention feature map and the textual information of the final outputs respectively, so that the inter-model and intra-model stylized knowledge of the old class is retained while learning the new class. In order to illustrate the ability of our model to resist forgetting, we designed a metric CIDER_t to detect the stage forgetting rate. Our experiments on the public dataset MSR-VTT show that the proposed method significantly resists the forgetting of previous tasks without replaying old samples, and performs well on the new task.

arxiv情報

著者 Huiyu Xiong,Lanxiao Wang,Heqian Qiu,Taijin Zhao,Benliu Qiu,Hongliang Li
発行日 2024-02-27 16:54:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク