Unsupervised Improvement of Audio-Text Cross-Modal Representations

要約

タイトル: 非監視学習による音声テキストのクロスモーダル表現の改良

要約:

– 従来のトレーニングアプローチでは、事前に定義されたラベルを使用しており、その制約を克服するために、言語モデルを使用してクロスモーダルな音声テキスト表現を得る最近の進歩がある。
– しかし、これらの表現を学習するには、大量の人工的に注釈付けられた音声とテキストのペアが必要であった。
– 本論文では、非監視学習アプローチを研究して、ペアがないテキストと音声を用いてこの表現の学習フレームワークを改善する方法を探究した。
– 非特化と特化されたカリキュレーション法についても研究し、音声テキストのペアを作成するために使用した。
– 特定のドメインでカリキュレーションを使用する場合には、ソフトラベルの対照的な損失を併用することで、下流の音響イベント分類や音響シーン分類のゼロショット分類性能において著しい改善を得ることができることを示した。

要約(オリジナル)

Recent advances in using language models to obtain cross-modal audio-text representations have overcome the limitations of conventional training approaches that use predefined labels. This has allowed the community to make progress in tasks like zero-shot classification, which would otherwise not be possible. However, learning such representations requires a large amount of human-annotated audio-text pairs. In this paper, we study unsupervised approaches to improve the learning framework of such representations with unpaired text and audio. We explore domain-unspecific and domain-specific curation methods to create audio-text pairs that we use to further improve the model. We also show that when domain-specific curation is used in conjunction with a soft-labeled contrastive loss, we are able to obtain significant improvement in terms of zero-shot classification performance on downstream sound event classification or acoustic scene classification tasks.

arxiv情報

著者 Zhepei Wang,Cem Subakan,Krishna Subramani,Junkai Wu,Tiago Tavares,Fabio Ayres,Paris Smaragdis
発行日 2023-05-05 02:22:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク