A Generalization Theory of Cross-Modality Distillation with Contrastive Learning

要約

クロスモダリティ蒸留は、深度マップや高品質のスケッチなどの限られた知識を含むデータ モダリティにとって重要なトピックとして生じます。
このような手法は、ラベル付きトレーニング データが通常利用できない、メモリとプライバシーが制限されたシナリオでは特に非常に重要です。
この問題を解決するために、既存のラベルフリー手法では、いくつかのペアごとのラベルなしデータを利用して、ソース モダリティとターゲット モダリティの間で特徴や統計を調整することで知識を抽出します。
たとえば、通常は、ソース (画像など) モダリティとターゲット (スケッチなど) モダリティのサンプルのペアの学習された特徴間の L2 距離またはコントラスト損失を最小限に抑えることを目的としています。
ただし、この分野のほとんどのアルゴリズムは実験結果のみに焦点を当てており、理論的な洞察が欠けています。
クロスモダリティ蒸留の理論と実際的な方法の間のギャップを埋めるために、まず、一般化可能なもののより良い蒸留に向けて、正と負の対応の両方を活用する対比学習に基づいて構築されたクロスモダリティ対比蒸留 (CMCD) の一般的なフレームワークを定式化します。
特徴。
さらに、ソースモダリティとターゲットモダリティの間の距離が、ターゲットモダリティ内の下流タスクのテストエラーに大きく影響することを明らかにする徹底的な収束分析を確立します。これは経験的結果によっても検証されています。
広範な実験結果は、私たちのアルゴリズムが、画像、スケッチ、深度マップ、音声のモダリティと、認識とセグメンテーションのタスクをカバーする、さまざまなモダリティとタスクにわたって、既存のアルゴリズムより一貫して 2 ~ 3% のマージンで優れていることを示しています。

要約(オリジナル)

Cross-modality distillation arises as an important topic for data modalities containing limited knowledge such as depth maps and high-quality sketches. Such techniques are of great importance, especially for memory and privacy-restricted scenarios where labeled training data is generally unavailable. To solve the problem, existing label-free methods leverage a few pairwise unlabeled data to distill the knowledge by aligning features or statistics between the source and target modalities. For instance, one typically aims to minimize the L2 distance or contrastive loss between the learned features of pairs of samples in the source (e.g. image) and the target (e.g. sketch) modalities. However, most algorithms in this domain only focus on the experimental results but lack theoretical insight. To bridge the gap between the theory and practical method of cross-modality distillation, we first formulate a general framework of cross-modality contrastive distillation (CMCD), built upon contrastive learning that leverages both positive and negative correspondence, towards a better distillation of generalizable features. Furthermore, we establish a thorough convergence analysis that reveals that the distance between source and target modalities significantly impacts the test error on downstream tasks within the target modality which is also validated by the empirical results. Extensive experimental results show that our algorithm outperforms existing algorithms consistently by a margin of 2-3\% across diverse modalities and tasks, covering modalities of image, sketch, depth map, and audio and tasks of recognition and segmentation.

arxiv情報

著者 Hangyu Lin,Chen Liu,Chengming Xu,Zhengqi Gao,Yanwei Fu,Yuan Yao
発行日 2024-05-28 14:47:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク