Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images

要約

継続学習 (CL) は、一方向のトレーニング方法を打破し、モデルが新しいデータ、セマンティクス、タスクに継続的に適応できるようにします。
ただし、現在の CL メソッドは主にシングルタスクに焦点を当てています。
さらに、CL モデルは、古いデータが欠如しているため、壊滅的な忘却と意味のドリフトに悩まされています。リモートセンシングの解釈では、複雑で粒度の細かいセマンティクスが原因で、この問題がよく発生します。
この論文では、リモートセンシング画像の普遍的な解釈のために、ピクセルレベルの分類、インスタンスレベルのセグメンテーション、および画像レベルの知覚をカバーするマルチタスク共同学習を活用する統合された継続的学習モデルである継続的パノプティック知覚(CPP)を提案します。
具体的には、入力画像の特徴を抽出するための協調的クロスモーダル エンコーダ (CCE) を提案します。これは、ピクセル分類とキャプション生成を同期的にサポートします。
模範記憶のない古いモデルから知識を継承するために、クロスモーダル最適化とタスク非対称擬似ラベル付け (TPL) を利用して壊滅的な忘却を軽減するタスク対話型知識蒸留 (TKD) 手法を提案します。
さらに、エンドツーエンドのマルチモーダルパノプティック知覚を実現するための共同最適化メカニズムも提案します。
きめの細かいパノラマ知覚データセットの実験結果は、提案されたモデルの有効性を検証し、また、共同最適化によりパノプティック品質が 13\% 以上相対的に向上し、サブタスク CL 効率を向上できることを証明します。

要約(オリジナル)

Continual learning (CL) breaks off the one-way training manner and enables a model to adapt to new data, semantics and tasks continuously. However, current CL methods mainly focus on single tasks. Besides, CL models are plagued by catastrophic forgetting and semantic drift since the lack of old data, which often occurs in remote-sensing interpretation due to the intricate fine-grained semantics. In this paper, we propose Continual Panoptic Perception (CPP), a unified continual learning model that leverages multi-task joint learning covering pixel-level classification, instance-level segmentation and image-level perception for universal interpretation in remote sensing images. Concretely, we propose a collaborative cross-modal encoder (CCE) to extract the input image features, which supports pixel classification and caption generation synchronously. To inherit the knowledge from the old model without exemplar memory, we propose a task-interactive knowledge distillation (TKD) method, which leverages cross-modal optimization and task-asymmetric pseudo-labeling (TPL) to alleviate catastrophic forgetting. Furthermore, we also propose a joint optimization mechanism to achieve end-to-end multi-modal panoptic perception. Experimental results on the fine-grained panoptic perception dataset validate the effectiveness of the proposed model, and also prove that joint optimization can boost sub-task CL efficiency with over 13\% relative improvement on panoptic quality.

arxiv情報

著者 Bo Yuan,Danpei Zhao,Zhuoran Liu,Wentao Li,Tian Li
発行日 2024-07-25 13:30:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク