要約
オーディオビジュアルセグメンテーション (AVS) の目的は、ピクセルごとのセグメンテーション マスクを正確に予測することによって、ビジュアル シーン内で音声オブジェクトの位置を特定することです。
この論文では、次の貢献を紹介します。(i) AVS タスク用の人工データを生成するための、スケーラブルでアノテーションのないパイプラインを提案します。
既存の画像セグメンテーションと音声データセットを利用して、カテゴリ ラベル、画像とマスクのペア、音声サンプル間のリンクを描画します。これにより、AVS モデルをトレーニングするためのトリプレット (画像、音声、マスク) を簡単に構成できます。
(ii) では、オーディオ認識クエリベースのトランスフォーマー デコーダを特徴とする新しいオーディオ認識トランスフォーマー (AuTR) アーキテクチャを導入します。
このアーキテクチャにより、モデルはオーディオ信号のガイドに従って音を発するオブジェクトを検索できるようになり、より正確なセグメンテーションが可能になります。
(iii) では、合成データセットと実際のデータセットの両方で行われた広範な実験を紹介します。これは、提案したパイプラインによって生成された合成データを使用して AVS モデルをトレーニングする有効性を示しています。
さらに、私たちが提案する AuTR アーキテクチャは、公開ベンチマークで優れたパフォーマンスと強力な一般化能力を示します。
プロジェクトページは https://jinxiang-liu.github.io/anno-free-AVS/ です。
要約(オリジナル)
The objective of Audio-Visual Segmentation (AVS) is to locate sounding objects within visual scenes by accurately predicting pixelwise segmentation masks. In this paper, we present the following contributions: (i), we propose a scalable and annotation-free pipeline for generating artificial data for the AVS task. We leverage existing image segmentation and audio datasets to draw links between category labels, image-mask pairs, and audio samples, which allows us to easily compose (image, audio, mask) triplets for training AVS models; (ii), we introduce a novel Audio-Aware Transformer (AuTR) architecture that features an audio-aware query-based transformer decoder. This architecture enables the model to search for sounding objects with the guidance of audio signals, resulting in more accurate segmentation; (iii), we present extensive experiments conducted on both synthetic and real datasets, which demonstrate the effectiveness of training AVS models with synthetic data generated by our proposed pipeline. Additionally, our proposed AuTR architecture exhibits superior performance and strong generalization ability on public benchmarks. The project page is https://jinxiang-liu.github.io/anno-free-AVS/.
arxiv情報
| 著者 | Jinxiang Liu,Yu Wang,Chen Ju,Ya Zhang,Weidi Xie | 
| 発行日 | 2023-05-18 14:52:45+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
