Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework

要約

少数ショット学習に関する既存の研究のほとんどは、同じモダリティからの少数のラベル付きサンプルのみを使用して、目に見えないデータを一般化するようにモデルがトレーニングされる単峰性設定に焦点を当てています。
ただし、実世界のデータは本質的にマルチモーダルであり、ユニモーダルなアプローチでは少数ショット学習の実際の応用が制限されます。
このギャップに対処するために、この論文では、ラベル付きのサンプルが少数しか利用できない場合に、複数のモダリティからインスタンスを認識することを目的としたクロスモーダル フューショット学習 (CFSL) タスクを紹介します。
このタスクには、各モダリティに固有の明確な視覚的特性と構造的特性があるため、従来の少数ショット学習と比較してさらなる課題が生じます。
これらの課題に取り組むために、私たちは 2 つの段階で構成される生成転移学習 (GTL) フレームワークを提案します。第 1 段階では豊富な単峰性データでのトレーニングが含まれ、第 2 段階では新しいデータに適応するための転移学習に焦点を当てます。
私たちの GTL フレームワークは、両方の段階でモダリティ間の潜在的な共有概念とモダリティ内の外乱を共同で推定します。同時に、学習された表現の安定性を維持し、限られたマルチモーダル サンプルへの過剰適合を防ぐために、転送フェーズ中に生成モジュールをフリーズします。
私たちの発見は、Sketchy、TU-Berlin、Mask1K、SKSF-A という 4 つの異なるマルチモーダル データセットにわたって、GTL が最先端の手法と比較して優れたパフォーマンスを備えていることを示しています。
さらに、この結果は、このモデルが人間の認知プロセスと同様に、限られた数の利用可能なサンプルのみを使用して、膨大な単峰性データから潜在的な概念を推定し、これらの概念を目に見えないモダリティに一般化できることを示唆しています。

要約(オリジナル)

Most existing studies on few-shot learning focus on unimodal settings, where models are trained to generalize on unseen data using only a small number of labeled examples from the same modality. However, real-world data are inherently multi-modal, and unimodal approaches limit the practical applications of few-shot learning. To address this gap, this paper introduces the Cross-modal Few-Shot Learning (CFSL) task, which aims to recognize instances from multiple modalities when only a few labeled examples are available. This task presents additional challenges compared to classical few-shot learning due to the distinct visual characteristics and structural properties unique to each modality. To tackle these challenges, we propose a Generative Transfer Learning (GTL) framework consisting of two stages: the first stage involves training on abundant unimodal data, and the second stage focuses on transfer learning to adapt to novel data. Our GTL framework jointly estimates the latent shared concept across modalities and in-modality disturbance in both stages, while freezing the generative module during the transfer phase to maintain the stability of the learned representations and prevent overfitting to the limited multi-modal samples. Our finds demonstrate that GTL has superior performance compared to state-of-the-art methods across four distinct multi-modal datasets: Sketchy, TU-Berlin, Mask1K, and SKSF-A. Additionally, the results suggest that the model can estimate latent concepts from vast unimodal data and generalize these concepts to unseen modalities using only a limited number of available samples, much like human cognitive processes.

arxiv情報

著者 Zhengwei Yang,Yuke Li,Qiang Sun,Basura Fernando,Heng Huang,Zheng Wang
発行日 2024-10-14 16:09:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク