要約
最近の視聴覚生成モデルは、オーディオから画像を生成する際に大きな進歩を遂げました。
ただし、既存のアプローチは、単一クラスのオーディオから画像の生成に焦点を当てており、混合オーディオから画像を生成できません。
これに対処するために、Soundscapes(複数のクラスを含む混合オーディオ)から画像を生成するためのオーディオビジュアル生成および分離モデル(AV-GAS)を提案します。
私たちの貢献は3つあります。まず、マルチクラスのオーディオ入力を与えられた画像を生成するというオーディオビジュアル生成タスクで新しい課題を提案し、オーディオビジュアルセパレーターを使用してこのタスクを解決する方法を提案します。
次に、新しいオーディオ視聴覚分離タスクを紹介します。これには、混合オーディオ入力に存在する各クラスに個別の画像を生成することが含まれます。
最後に、視聴覚生成タスクの新しい評価メトリックを提案します:クラス表現スコア(CRS)およびA Modified R@K。
私たちのモデルは、vggsoundデータセットでトレーニングおよび評価されています。
私たちの方法は、混合オーディオでもっともらしい画像を生成する際に、最先端の最先端を上回ることを示しています。
要約(オリジナル)
Recent audio-visual generative models have made substantial progress in generating images from audio. However, existing approaches focus on generating images from single-class audio and fail to generate images from mixed audio. To address this, we propose an Audio-Visual Generation and Separation model (AV-GAS) for generating images from soundscapes (mixed audio containing multiple classes). Our contribution is threefold: First, we propose a new challenge in the audio-visual generation task, which is to generate an image given a multi-class audio input, and we propose a method that solves this task using an audio-visual separator. Second, we introduce a new audio-visual separation task, which involves generating separate images for each class present in a mixed audio input. Lastly, we propose new evaluation metrics for the audio-visual generation task: Class Representation Score (CRS) and a modified R@K. Our model is trained and evaluated on the VGGSound dataset. We show that our method outperforms the state-of-the-art, achieving 7% higher CRS and 4% higher R@2* in generating plausible images with mixed audio.
arxiv情報
著者 | Minjae Kang,Martim Brandão |
発行日 | 2025-04-25 11:51:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google