要約
タイトル:オーディオ-テキストのクロスモーダル表現の自己学習改善
要約:
– 言語モデルを使用して、クロスモーダルオーディオ-テキスト表現を得ることで、事前に定義されたラベルを使用する従来のトレーニングアプローチの限界を克服し、ゼロショット分類などのタスクで進歩を実現している。
– しかし、そのような表現を学習するには、大量の人間によるアノテーション付きオーディオ-テキストペアが必要である。
– 本論文では、アンペアのテキストやオーディオを使用して、そのような表現の学習フレームワークを改善する無監督アプローチを研究する。
– 特定のドメインのカリキュレーション方法を使ってオーディオ-テキストペアを作成し、モデルの改善に使用することを探求する。
– また、特定のドメインのカリキュレーションが、ソフトラベル対照損失と併用された場合に、下流の音声イベント分類や音響シーン分類のゼロショット分類性能に対して、有意な改善が得られることを示す。
要約(オリジナル)
Recent advances in using language models to obtain cross-modal audio-text representations have overcome the limitations of conventional training approaches that use predefined labels. This has allowed the community to make progress in tasks like zero-shot classification, which would otherwise not be possible. However, learning such representations requires a large amount of human-annotated audio-text pairs. In this paper, we study unsupervised approaches to improve the learning framework of such representations with unpaired text and audio. We explore domain-unspecific and domain-specific curation methods to create audio-text pairs that we use to further improve the model. We also show that when domain-specific curation is used in conjunction with a soft-labeled contrastive loss, we are able to obtain significant improvement in terms of zero-shot classification performance on downstream sound event classification or acoustic scene classification tasks.
arxiv情報
著者 | Zhepei Wang,Cem Subakan,Krishna Subramani,Junkai Wu,Tiago Tavares,Fabio Ayres,Paris Smaragdis |
発行日 | 2023-05-03 02:30:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI