要約
大規模な事前トレーニング済み画像テキスト モデルは、その堅牢な表現機能と効果的なマルチモーダル アラインメントの恩恵を受け、さまざまなタスクにわたって驚くべき多用途性を示します。
私たちはこれらのモデル、特に CLIP の応用を音源定位の領域に拡張します。
従来のアプローチとは異なり、明示的なテキスト入力を行わず、オーディオとビジュアルの対応のみに依存して、事前トレーニングされた CLIP モデルを採用します。
この目的を達成するために、オーディオ信号を CLIP のテキスト エンコーダーと互換性のあるトークンに変換し、オーディオ駆動型の埋め込みを実現するフレームワークを導入します。
これらのエンベディングを直接使用することで、私たちの方法は、提供されたオーディオに対してオーディオベースのマスクを生成し、ハイライトされた領域からオーディオベースの画像特徴を抽出し、オーディオビジュアル対応目標を使用してそれらをオーディオ駆動型エンベディングと位置合わせします。
私たちの調査結果は、事前にトレーニングされた画像テキストモデルを利用することで、私たちのモデルが音響オブジェクトのより完全でコンパクトな位置推定マップを生成できることを示唆しています。
広範な実験により、私たちの方法が最先端のアプローチを大幅に上回ることが示されました。
要約(オリジナル)
Large-scale pre-trained image-text models demonstrate remarkable versatility across diverse tasks, benefiting from their robust representational capabilities and effective multimodal alignment. We extend the application of these models, specifically CLIP, to the domain of sound source localization. Unlike conventional approaches, we employ the pre-trained CLIP model without explicit text input, relying solely on the audio-visual correspondence. To this end, we introduce a framework that translates audio signals into tokens compatible with CLIP’s text encoder, yielding audio-driven embeddings. By directly using these embeddings, our method generates audio-grounded masks for the provided audio, extracts audio-grounded image features from the highlighted regions, and aligns them with the audio-driven embeddings using the audio-visual correspondence objective. Our findings suggest that utilizing pre-trained image-text models enable our model to generate more complete and compact localization maps for the sounding objects. Extensive experiments show that our method outperforms state-of-the-art approaches by a significant margin.
arxiv情報
著者 | Sooyoung Park,Arda Senocak,Joon Son Chung |
発行日 | 2023-11-07 15:26:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google