Cross-Modal Knowledge Transfer Without Task-Relevant Source Data

要約

通常の RGB センサーに代わる費用対効果の高い深度センサーと赤外線センサーが現実のものとなり、自律航法やリモート センシングなどの分野で RGB よりもいくつかの利点があります。
そのため、深度データと赤外線データ用のコンピューター ビジョン システムとディープ ラーニング システムを構築することは非常に重要です。
ただし、これらのモダリティのラベル付けされた大規模なデータセットはまだ不足しています。
このような場合、ソース モダリティ (RGB) の適切にラベル付けされた大規模なデータセットでトレーニングされたニューラル ネットワークから、ターゲット モダリティ (深度、赤外線など) で機能するニューラル ネットワークに知識を転送することは非常に価値があります。
メモリやプライバシーなどの理由で、ソース データにアクセスできない場合があり、知識の伝達はソース モデルのみで行う必要があります。
タスク関連のソースデータにアクセスせずに、あるソースモダリティから別のターゲットモダリティに知識を転送するというこの困難なタスクのための効果的なソリューション、SOCKET: ソースフリーのクロスモーダル知識転送について説明します。
フレームワークは、ペアのタスクに関係のないデータを使用し、ターゲット機能の平均と分散をソース モデルに存在するバッチ ノルム統計と照合することによって、モダリティ ギャップを減らします。
モダリティギャップを考慮しない分類タスクに対して、既存のソースフリーの方法よりも大幅に優れていることを広範な実験を通じて示します。

要約(オリジナル)

Cost-effective depth and infrared sensors as alternatives to usual RGB sensors are now a reality, and have some advantages over RGB in domains like autonomous navigation and remote sensing. As such, building computer vision and deep learning systems for depth and infrared data are crucial. However, large labeled datasets for these modalities are still lacking. In such cases, transferring knowledge from a neural network trained on a well-labeled large dataset in the source modality (RGB) to a neural network that works on a target modality (depth, infrared, etc.) is of great value. For reasons like memory and privacy, it may not be possible to access the source data, and knowledge transfer needs to work with only the source models. We describe an effective solution, SOCKET: SOurce-free Cross-modal KnowledgE Transfer for this challenging task of transferring knowledge from one source modality to a different target modality without access to task-relevant source data. The framework reduces the modality gap using paired task-irrelevant data, as well as by matching the mean and variance of the target features with the batch-norm statistics that are present in the source models. We show through extensive experiments that our method significantly outperforms existing source-free methods for classification tasks which do not account for the modality gap.

arxiv情報

著者 Sk Miraj Ahmed,Suhas Lohit,Kuan-Chuan Peng,Michael J. Jones,Amit K. Roy-Chowdhury
発行日 2022-09-08 20:43:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク