I can listen but cannot read: An evaluation of two-tower multimodal systems for instrument recognition

要約

音楽 2 タワー マルチモーダル システムは、オーディオとテキストのモダリティを統合したオーディオ – テキスト空間に統合し、曲とそれに対応するレーベルを直接比較できるようにします。
これらのシステムは、両方の方式を活用して、分類と検索のための新しいアプローチを可能にします。
ゼロショット分類および検索タスクに関して彼らが示した有望な結果にもかかわらず、埋め込みの詳細な検査が必要です。
この論文では、楽器認識のケーススタディについて、オーディオとテキストの結合空間に固有のゼロショット特性を評価します。
ゼロショット機器認識のための 2 タワー システムの評価と分析、およびプレジョイントおよびジョイント埋め込み空間の特性の詳細な分析を紹介します。
私たちの調査結果は、オーディオ エンコーダだけでは良好な品質を示しているが、テキスト エンコーダやジョイント スペース プロジェクション内には課題が残っていることを示唆しています。
具体的には、2 つの塔のシステムは特定の単語に対して敏感を示し、音楽に基づいたプロンプトよりも一般的なプロンプトを好みます。
テキストエンコーダのサイズは大きいにもかかわらず、追加のテキストコンテキストを活用したり、説明から楽器を正確に推測したりすることはまだありません。
最後に、機器オントロジーを活用してテキスト空間の意味論的な意味を定量化するための新しいアプローチが提案されます。
この方法は、システムによる楽器の理解の欠陥を明らかにし、音楽データに対してテキスト エンコーダを微調整する必要があるという証拠を提供します。

要約(オリジナル)

Music two-tower multimodal systems integrate audio and text modalities into a joint audio-text space, enabling direct comparison between songs and their corresponding labels. These systems enable new approaches for classification and retrieval, leveraging both modalities. Despite the promising results they have shown for zero-shot classification and retrieval tasks, closer inspection of the embeddings is needed. This paper evaluates the inherent zero-shot properties of joint audio-text spaces for the case-study of instrument recognition. We present an evaluation and analysis of two-tower systems for zero-shot instrument recognition and a detailed analysis of the properties of the pre-joint and joint embeddings spaces. Our findings suggest that audio encoders alone demonstrate good quality, while challenges remain within the text encoder or joint space projection. Specifically, two-tower systems exhibit sensitivity towards specific words, favoring generic prompts over musically informed ones. Despite the large size of textual encoders, they do not yet leverage additional textual context or infer instruments accurately from their descriptions. Lastly, a novel approach for quantifying the semantic meaningfulness of the textual space leveraging an instrument ontology is proposed. This method reveals deficiencies in the systems’ understanding of instruments and provides evidence of the need for fine-tuning text encoders on musical data.

arxiv情報

著者 Yannis Vasilakis,Rachel Bittner,Johan Pauwels
発行日 2024-07-25 14:15:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG, cs.SD, eess.AS パーマリンク