要約
人間は、不正確な自然言語記述が与えられたとしても、音のシーンを思い描くことができます。
たとえば、「ライオンの咆哮が真後ろから聞こえてきた!」といったフレーズが与えられると、音響環境を容易に想像できます。
機械が同じ程度の理解力を持つためには、機械はライオンが何であるか (意味属性)、「背後」の概念が何であるか (空間属性)、そしてこれらの言語情報が意味属性および空間属性とどのように一致するかを知らなければなりません。
音の変化(後ろから聞こえる轟音)。
オーディオシーンと自然なテキスト記述の間のマッピングを学習する最先端のオーディオ基盤モデルは、非空間オーディオとテキストのペアでトレーニングされるため、空間認識が欠如しています。
対照的に、音声イベントの位置特定および検出モデルは、固定数のクラスからの音の認識に限定されており、自然言語を使用して記述された位置 (例: 「私の隣」) ではなく、絶対位置 (例: 0.2 m) に音源を位置特定します。
‘)。
これらのギャップに対処するために、マルチモーダル対比学習を使用してトレーニングされた空間認識オーディオおよびテキスト埋め込みモデル ELSA を提示します。
ELSA は、非空間オーディオ、空間オーディオ、および音声の空間コンポーネントと意味コンポーネントの両方を説明するオープンボキャブラリーのテキスト キャプションをサポートしています。
ELSA をトレーニングするには: (a) 合計 4,738 時間のオーディオに相当する 3 つのオープンソース オーディオ データセットのオーディオとキャプションを空間的に拡張します。(b) 非空間オーディオのセマンティクスと、セマンティクスと空間のセマンティクスをキャプチャするエンコーダーを設計します。
対照学習を使用した空間オーディオの属性。
ELSA は、セマンティック検索と 3D ソース ローカリゼーションの両方において最先端の技術と競合します。
特に、ELSA は、ベースラインを上回る +2.8% の平均オーディオからテキストおよびテキストからオーディオへの R@1 を達成し、ベースラインを超える 3D ソース ローカリゼーションの平均絶対誤差 -11.6{\deg} のパフォーマンスを上回ります。
要約(オリジナル)
Humans can picture a sound scene given an imprecise natural language description. For example, it is easy to imagine an acoustic environment given a phrase like ‘the lion roar came from right behind me!’. For a machine to have the same degree of comprehension, the machine must know what a lion is (semantic attribute), what the concept of ‘behind’ is (spatial attribute) and how these pieces of linguistic information align with the semantic and spatial attributes of the sound (what a roar sounds like when its coming from behind). State-of-the-art audio foundation models which learn to map between audio scenes and natural textual descriptions, are trained on non-spatial audio and text pairs, and hence lack spatial awareness. In contrast, sound event localization and detection models are limited to recognizing sounds from a fixed number of classes, and they localize the source to absolute position (e.g., 0.2m) rather than a position described using natural language (e.g., ‘next to me’). To address these gaps, we present ELSA a spatially aware-audio and text embedding model trained using multimodal contrastive learning. ELSA supports non-spatial audio, spatial audio, and open vocabulary text captions describing both the spatial and semantic components of sound. To train ELSA: (a) we spatially augment the audio and captions of three open-source audio datasets totaling 4,738 hours of audio, and (b) we design an encoder to capture the semantics of non-spatial audio, and the semantics and spatial attributes of spatial audio using contrastive learning. ELSA is competitive with state-of-the-art for both semantic retrieval and 3D source localization. In particular, ELSA achieves +2.8% mean audio-to-text and text-to-audio R@1 above the baseline, and outperforms by -11.6{\deg} mean-absolute-error in 3D source localization over the baseline.
arxiv情報
著者 | Bhavika Devnani,Skyler Seto,Zakaria Aldeneh,Alessandro Toso,Elena Menyaylenko,Barry-John Theobald,Jonathan Sheaffer,Miguel Sarabia |
発行日 | 2024-09-17 17:17:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google