What Do I Hear? Generating Sounds for Visuals with ChatGPT

要約

この短いペーパーでは、ビジュアル メディアのリアルなサウンドスケープを生成するためのワークフローを紹介します。
画面上のビジュアルにサウンドを一致させることに主に焦点を当てていたこれまでの研究とは対照的に、私たちのアプローチは、すぐには目に見えないかもしれないが、説得力のある没入型の聴覚環境を構築するために不可欠なサウンドを提案することにまで拡張されています。
私たちの重要な洞察は、ChatGPT などの言語モデルの推論機能を活用することです。
このペーパーでは、シーン コンテキストの作成、サウンドのブレインストーミング、サウンドの生成を含むワークフローについて説明します。

要約(オリジナル)

This short paper introduces a workflow for generating realistic soundscapes for visual media. In contrast to prior work, which primarily focus on matching sounds for on-screen visuals, our approach extends to suggesting sounds that may not be immediately visible but are essential to crafting a convincing and immersive auditory environment. Our key insight is leveraging the reasoning capabilities of language models, such as ChatGPT. In this paper, we describe our workflow, which includes creating a scene context, brainstorming sounds, and generating the sounds.

arxiv情報

著者 David Chuan-En Lin,Nikolas Martelaro
発行日 2023-11-09 18:59:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク