Learning Tri-modal Embeddings for Zero-Shot Soundscape Mapping

要約

私たちは、特定の地理的位置で知覚される可能性が最も高い音を予測することを含む、サウンドスケープ マッピングのタスクに焦点を当てています。
私たちは、最新の最先端モデルを利用して、コントラスト事前トレーニングを使用して、ジオタグ付き音声、音声のテキストによる説明、およびそのキャプチャ位置の俯瞰画像をエンコードします。
最終的には、3 つのモダリティの共有埋め込みスペースが得られ、テキストまたはオーディオのクエリから任意の地理的領域のサウンドスケープ マップを構築できるようになります。
SoundingEarth データセットを使用すると、画像から音声への Recall@100 が 0.256 から 0.450 に改善され、私たちのアプローチが既存の SOTA よりも大幅に優れていることがわかりました。
私たちのコードは https://github.com/mvrl/geoclap で入手できます。

要約(オリジナル)

We focus on the task of soundscape mapping, which involves predicting the most probable sounds that could be perceived at a particular geographic location. We utilise recent state-of-the-art models to encode geotagged audio, a textual description of the audio, and an overhead image of its capture location using contrastive pre-training. The end result is a shared embedding space for the three modalities, which enables the construction of soundscape maps for any geographic region from textual or audio queries. Using the SoundingEarth dataset, we find that our approach significantly outperforms the existing SOTA, with an improvement of image-to-audio Recall@100 from 0.256 to 0.450. Our code is available at https://github.com/mvrl/geoclap.

arxiv情報

著者 Subash Khanal,Srikumar Sastry,Aayush Dhakal,Nathan Jacobs
発行日 2023-09-19 14:49:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク