Images that Sound: Composing Images and Sounds on a Single Canvas

要約

スペクトログラムは、私たちの視覚世界にある画像とは大きく異なるサウンドの 2D 表現です。
また、自然な画像をスペクトログラムとして再生すると、不自然な音が発生します。
この論文では、自然な画像のように見え、同時に自然なオーディオのように聞こえるスペクトログラムを合成できることを示します。
これらのスペクトログラムを音の画像と呼びます。
私たちのアプローチはシンプルでゼロショットであり、共有潜在空間で動作する事前トレーニング済みのテキストから画像への拡散モデルとテキストからスペクトログラムへの拡散モデルを活用しています。
逆のプロセスでは、音声と画像の両方の拡散モデルを並行して使用してノイズの多い潜在ノイズを除去し、両方のモデルに該当すると考えられるサンプルを生成します。
定量的評価と知覚的研究を通じて、私たちの方法は、望ましい画像プロンプトの視覚的外観も考慮しながら、望ましい音声プロンプトと一致するスペクトログラムを生成することに成功したことがわかりました。
ビデオ結果についてはプロジェクト ページをご覧ください: https://ificl.github.io/images-that-sound/

要約(オリジナル)

Spectrograms are 2D representations of sound that look very different from the images found in our visual world. And natural images, when played as spectrograms, make unnatural sounds. In this paper, we show that it is possible to synthesize spectrograms that simultaneously look like natural images and sound like natural audio. We call these spectrograms images that sound. Our approach is simple and zero-shot, and it leverages pre-trained text-to-image and text-to-spectrogram diffusion models that operate in a shared latent space. During the reverse process, we denoise noisy latents with both the audio and image diffusion models in parallel, resulting in a sample that is likely under both models. Through quantitative evaluations and perceptual studies, we find that our method successfully generates spectrograms that align with a desired audio prompt while also taking the visual appearance of a desired image prompt. Please see our project page for video results: https://ificl.github.io/images-that-sound/

arxiv情報

著者 Ziyang Chen,Daniel Geng,Andrew Owens
発行日 2024-05-20 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク