Robust Sound-Guided Image Manipulation

要約

タイトル:頑健な音に導かれた画像操作

要約:
– 画像はテキストによって操作できることがわかっている。
– しかし、テキスト入力はセマンティックプロンプトを提供するのに十分ではない。
– この問題に対処するために、音を利用することを提唱する。
– 音は豊かなセマンティックプロンプトを提供できるため、画像操作に優れている。
– この論文では、音を用いて画像を操作する方法を提案している。
– その方法は、音声入力に基づいて与えられた画像を操作するための直接潜在最適化法を適用する。
– 実験により、提案手法が従来のテキストや音による画像操作手法よりもセマンティック的にも視覚的にも優れていることが確認された。
– また、提案手法を用いた音声入力の学習結果が有効であることも確認された。

要約(オリジナル)

Recent successes suggest that an image can be manipulated by a text prompt, e.g., a landscape scene on a sunny day is manipulated into the same scene on a rainy day driven by a text input ‘raining’. These approaches often utilize a StyleCLIP-based image generator, which leverages multi-modal (text and image) embedding space. However, we observe that such text inputs are often bottlenecked in providing and synthesizing rich semantic cues, e.g., differentiating heavy rain from rain with thunderstorms. To address this issue, we advocate leveraging an additional modality, sound, which has notable advantages in image manipulation as it can convey more diverse semantic cues (vivid emotions or dynamic expressions of the natural world) than texts. In this paper, we propose a novel approach that first extends the image-text joint embedding space with sound and applies a direct latent optimization method to manipulate a given image based on audio input, e.g., the sound of rain. Our extensive experiments show that our sound-guided image manipulation approach produces semantically and visually more plausible manipulation results than the state-of-the-art text and sound-guided image manipulation methods, which are further confirmed by our human evaluations. Our downstream task evaluations also show that our learned image-text-sound joint embedding space effectively encodes sound inputs.

arxiv情報

著者 Seung Hyun Lee,Gyeongrok Oh,Wonmin Byeon,Sang Ho Yoon,Jinkyu Kim,Sangpil Kim
発行日 2023-04-25 01:31:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク