On Class Separability Pitfalls In Audio-Text Contrastive Zero-Shot Learning

要約

オーディオとテキストのクロスモーダル対比学習の最近の進歩により、ゼロショット学習への可能性が示されています。
これに対する 1 つの可能性は、事前にトレーニングされたバックボーン ニューラル ネットワークからアイテムの埋め込みを、どちらのドメインでもアイテムの類似性を計算できるクロスモーダル空間に投影することです。
このプロセスは、バックボーン ネットワークの強力なユニモーダル事前トレーニングと、プロジェクターのデータ集約型トレーニング タスクに依存しています。
これら 2 つのプロセスは、事前トレーニングで教師あり学習を使用したり、ゼロショット学習評価のラベルを使用してクロスモーダル投影を不注意にトレーニングしたりすることで発生する可能性のある、意図しないデータ漏洩によって偏る可能性があります。
この研究では、測定されたゼロショット学習精度の重要な部分が、オーディオとテキストのバックボーンから継承された強みによるものであること、つまり、それらはクロスモーダル ドメインで学習されず、1 つのモダリティから転送されたものではないことを示します。
別のものに。

要約(オリジナル)

Recent advances in audio-text cross-modal contrastive learning have shown its potential towards zero-shot learning. One possibility for this is by projecting item embeddings from pre-trained backbone neural networks into a cross-modal space in which item similarity can be calculated in either domain. This process relies on a strong unimodal pre-training of the backbone networks, and on a data-intensive training task for the projectors. These two processes can be biased by unintentional data leakage, which can arise from using supervised learning in pre-training or from inadvertently training the cross-modal projection using labels from the zero-shot learning evaluation. In this study, we show that a significant part of the measured zero-shot learning accuracy is due to strengths inherited from the audio and text backbones, that is, they are not learned in the cross-modal domain and are not transferred from one modality to another.

arxiv情報

著者 Tiago Tavares,Fabio Ayres,Zhepei Wang,Paris Smaragdis
発行日 2024-08-23 13:52:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク