Generating Realistic Images from In-the-wild Sounds

要約

野生の音を画像として表現することは、音と画像の間にペアのデータセットが存在しないことと、これら 2 つのモダリティの特性に大きな違いがあるため、重要ですが困難な作業です。
これまでの研究は、限られたカテゴリの音や音楽から画像を生成することに焦点を当てていました。
この論文では、自然界の音から画像を生成する新しいアプローチを提案します。
まず、音声キャプションを使用して音声をテキストに変換します。
次に、音の豊かな特徴を表現し、音を視覚化するためのオーディオアテンションとセンテンスアテンションを提案します。
最後に、CLIPscore と AudioCLIP を使用した直接的なサウンドの最適化を提案し、拡散ベースのモデルで画像を生成します。
実験では、私たちのモデルが野生の音から高品質の画像を生成でき、野生の音声データセットの定量的評価と定性的評価の両方でベースラインを上回るパフォーマンスを示していることがわかりました。

要約(オリジナル)

Representing wild sounds as images is an important but challenging task due to the lack of paired datasets between sound and images and the significant differences in the characteristics of these two modalities. Previous studies have focused on generating images from sound in limited categories or music. In this paper, we propose a novel approach to generate images from in-the-wild sounds. First, we convert sound into text using audio captioning. Second, we propose audio attention and sentence attention to represent the rich characteristics of sound and visualize the sound. Lastly, we propose a direct sound optimization with CLIPscore and AudioCLIP and generate images with a diffusion-based model. In experiments, it shows that our model is able to generate high quality images from wild sounds and outperforms baselines in both quantitative and qualitative evaluations on wild audio datasets.

arxiv情報

著者 Taegyeong Lee,Jeonghun Kang,Hyeonyu Kim,Taehwan Kim
発行日 2023-09-05 17:36:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク