AV-SAM: Segment Anything Model Meets Audio-Visual Localization and Segmentation

要約

タイトル: AV-SAM: Segment Anything Model Meets Audio-Visual Localization and Segmentation

要約:
– 最近、Segment Anything Model(SAM)は視覚的なセグメンテーションタスクにおいて効果的であることが示されている。
– しかし、SAMが視覚的音源のローカリゼーションやセグメンテーションなどの音声ビジュアルタスクにどのように機能するかについては、あまり探究されていない。
– この研究では、音響に対応した音響オブジェクトマスクを生成できる AV-SAM という、セグメント・エニシング・モデルに基づいた単純で効果的な音声ビジュアルローカリゼーションおよびセグメンテーションフレームワークを提案する。
– 具体的には、AV-SAM は、SAMの事前学習されたイメージエンコーダの視覚特徴量とオーディオ特徴量のピクセルワイズオーディオビジュアルフュージョンを利用して、クロスモーダルな表現を集約することにより、集約されたクロスモーダル特徴量をプロンプトエンコーダおよびマスクデコーダへと送って、最終的な音声ビジュアルセグメンテーションマスクを生成する。
– Flickr-SoundNetおよびAVSBenchデータセットでの広範な実験を行い、AV-SAMが音響オブジェクトのローカリゼーションおよびセグメンテーションにおいて競争力のあるパフォーマンスを発揮できることを示した。

要約(オリジナル)

Segment Anything Model (SAM) has recently shown its powerful effectiveness in visual segmentation tasks. However, there is less exploration concerning how SAM works on audio-visual tasks, such as visual sound localization and segmentation. In this work, we propose a simple yet effective audio-visual localization and segmentation framework based on the Segment Anything Model, namely AV-SAM, that can generate sounding object masks corresponding to the audio. Specifically, our AV-SAM simply leverages pixel-wise audio-visual fusion across audio features and visual features from the pre-trained image encoder in SAM to aggregate cross-modal representations. Then, the aggregated cross-modal features are fed into the prompt encoder and mask decoder to generate the final audio-visual segmentation masks. We conduct extensive experiments on Flickr-SoundNet and AVSBench datasets. The results demonstrate that the proposed AV-SAM can achieve competitive performance on sounding object localization and segmentation.

arxiv情報

著者 Shentong Mo,Yapeng Tian
発行日 2023-05-03 00:33:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク