Advancing Natural-Language Based Audio Retrieval with PaSST and Large Audio-Caption Data Sets

要約

この研究では、事前トレーニングされたテキストとスペクトログラム変換器に基づいたテキストからオーディオへの検索システムを紹介します。
私たちの方法では、録音とテキストによる説明を、さまざまなモダリティからの関連する例が近くにある共有の音声キャプション空間に投影します。
系統的な分析を通じて、システムの各コンポーネントが検索パフォーマンスにどのような影響を与えるかを調べます。
その結果、パフォーマンスを向上させる上で重要な役割を果たす 2 つの重要なコンポーネントが特定されました。それは、オーディオ埋め込み用のセルフアテンションベースのオーディオ エンコーダーと、事前トレーニング中の追加の人間生成および合成データ セットの利用です。
さらに、ClothoV2 のキャプションに利用可能なキーワードを追加して多様性を高める実験を行いました。
ただし、これはわずかな改善にしかつながりませんでした。
当社のシステムは 2023 年の DCASE Challenge で 1 位にランクされ、ClothoV2 ベンチマークで現在の最先端のシステムを 5.6 pp. mAP@10 上回りました。

要約(オリジナル)

This work presents a text-to-audio-retrieval system based on pre-trained text and spectrogram transformers. Our method projects recordings and textual descriptions into a shared audio-caption space in which related examples from different modalities are close. Through a systematic analysis, we examine how each component of the system influences retrieval performance. As a result, we identify two key components that play a crucial role in driving performance: the self-attention-based audio encoder for audio embedding and the utilization of additional human-generated and synthetic data sets during pre-training. We further experimented with augmenting ClothoV2 captions with available keywords to increase their variety; however, this only led to marginal improvements. Our system ranked first in the 2023’s DCASE Challenge, and it outperforms the current state of the art on the ClothoV2 benchmark by 5.6 pp. mAP@10.

arxiv情報

著者 Paul Primus,Khaled Koutini,Gerhard Widmer
発行日 2023-08-08 13:46:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG, cs.SD, eess.AS パーマリンク