Source-Free Cross-Modal Knowledge Transfer by Unleashing the Potential of Task-Irrelevant Data

要約

ソースフリーのクロスモーダル知識伝達は、重要かつ困難なタスクであり、タスク関連 (TR) にアクセスすることなく、1 つのソース モダリティ (RGB など) からターゲット モダリティ (深度または赤外線など) に知識を伝達することを目的としています。
) メモリとプライバシーの問題によるソース データ。
最近の試みでは、ペアになったタスク無関係 (TI) データを活用し、それらの特徴を直接照合してモダリティ ギャップを排除しています。
しかし、これは、ペアになった TI データを利用してソース データの分布を効果的に推定し、ターゲット モダリティへの知識の伝達をより容易にすることができるという極めて重要な手がかりを無視しています。
この目的を達成するために、ソースフリーのクロスモーダル知識伝達を強化するために、ペアになった TI データの可能性を引き出す、斬新かつ簡潔なフレームワークを提案します。
私たちの仕事は 2 つの重要な技術要素によって支えられています。
まず、ソース データの分布をより適切に推定するために、タスクに関係のないデータガイド付きモダリティ ブリッジング (TGMB) モジュールを導入します。
これは、ペアの TI データと利用可能なソース モデルのガイダンスに基づいて、ターゲット モダリティ データ (赤外線など) をソースのような RGB 画像に変換し、次の 2 つの重要なギャップを緩和します。1) ペアの TI データ間のモダリティ間ギャップ。
2) TI と TR のターゲット データ間のモダリティ内ギャップ。
次に、ペアになった TI データを活用してソース モデルからターゲット モデルに知識を転送する、タスクに関係のないデータ誘導型知識転送 (TGKT) モジュールを提案します。
特に、TR ターゲット データのラベルが利用できないことと、ソース モデルからの予測の信頼性が低いため、TGKT モデルには、ターゲット モデルがその予測から学習できるように、自己教師ありの擬似ラベル付けアプローチが組み込まれています。
広範な実験により、私たちの方法が 3 つのデータセット (RGB から深度へ、および RGB から赤外線へ) で最先端のパフォーマンスを達成できることが示されています。

要約(オリジナル)

Source-free cross-modal knowledge transfer is a crucial yet challenging task, which aims to transfer knowledge from one source modality (e.g., RGB) to the target modality (e.g., depth or infrared) with no access to the task-relevant (TR) source data due to memory and privacy concerns. A recent attempt leverages the paired task-irrelevant (TI) data and directly matches the features from them to eliminate the modality gap. However, it ignores a pivotal clue that the paired TI data could be utilized to effectively estimate the source data distribution and better facilitate knowledge transfer to the target modality. To this end, we propose a novel yet concise framework to unlock the potential of paired TI data for enhancing source-free cross-modal knowledge transfer. Our work is buttressed by two key technical components. Firstly, to better estimate the source data distribution, we introduce a Task-irrelevant data-Guided Modality Bridging (TGMB) module. It translates the target modality data (e.g., infrared) into the source-like RGB images based on paired TI data and the guidance of the available source model to alleviate two key gaps: 1) inter-modality gap between the paired TI data; 2) intra-modality gap between TI and TR target data. We then propose a Task-irrelevant data-Guided Knowledge Transfer (TGKT) module that transfers knowledge from the source model to the target model by leveraging the paired TI data. Notably, due to the unavailability of labels for the TR target data and its less reliable prediction from the source model, our TGKT model incorporates a self-supervised pseudo-labeling approach to enable the target model to learn from its predictions. Extensive experiments show that our method achieves state-of-the-art performance on three datasets (RGB-to-depth and RGB-to-infrared).

arxiv情報

著者 Jinjing Zhu,Yucheng Chen,Lin Wang
発行日 2024-01-10 09:02:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク