要約
オーディオ ビジュアル セグメンテーション (AVS) と呼ばれる新しい問題を調査することを提案します。AVS の目標は、画像フレームの時点で音を生成するオブジェクトのピクセル レベルのマップを出力することです。
この研究を容易にするために、最初のオーディオビジュアル セグメンテーション ベンチマーク (AVSBench) を構築し、可聴ビデオのサウンド オブジェクトにピクセル単位の注釈を提供します。
このベンチマークでは、1) 単一の音源による半教師付きオーディオビジュアル セグメンテーションと、2) 複数の音源による完全教師付きオーディオビジュアル セグメンテーションの 2 つの設定が調査されます。
AVSの問題に対処するために、一時的なピクセル単位のオーディオビジュアル相互作用モジュールを使用して、ビジュアルセグメンテーションプロセスのガイダンスとしてオーディオセマンティクスを挿入する新しい方法を提案します。
また、トレーニング中に視聴覚マッピングを促進するために正則化損失を設計します。
AVSBench での定量的および定性的な実験では、関連するタスクからのいくつかの既存の方法と私たちのアプローチを比較し、提案された方法がオーディオとピクセル単位の視覚セマンティクスの間のブリッジを構築するのに有望であることを示しています。
コードは https://github.com/OpenNLPLab/AVSBench で入手できます。
要約(オリジナル)
We propose to explore a new problem called audio-visual segmentation (AVS), in which the goal is to output a pixel-level map of the object(s) that produce sound at the time of the image frame. To facilitate this research, we construct the first audio-visual segmentation benchmark (AVSBench), providing pixel-wise annotations for the sounding objects in audible videos. Two settings are studied with this benchmark: 1) semi-supervised audio-visual segmentation with a single sound source and 2) fully-supervised audio-visual segmentation with multiple sound sources. To deal with the AVS problem, we propose a novel method that uses a temporal pixel-wise audio-visual interaction module to inject audio semantics as guidance for the visual segmentation process. We also design a regularization loss to encourage the audio-visual mapping during training. Quantitative and qualitative experiments on the AVSBench compare our approach to several existing methods from related tasks, demonstrating that the proposed method is promising for building a bridge between the audio and pixel-wise visual semantics. Code is available at https://github.com/OpenNLPLab/AVSBench.
arxiv情報
| 著者 | Jinxing Zhou,Jianyuan Wang,Jiayi Zhang,Weixuan Sun,Jing Zhang,Stan Birchfield,Dan Guo,Lingpeng Kong,Meng Wang,Yiran Zhong | 
| 発行日 | 2023-02-17 14:15:01+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
