Conditional Generation of Audio from Video via Foley Analogies

要約

タイトル:映像からの音声生成におけるFoleyアナロジーによる条件付け生成

要約:

– 映像にデザイナーが加える音響効果は、特定の芸術的効果を伝えるように設計されており、そのためにはシーンの実際の音とはかなり異なる場合がある。
– 映像の真の音とは異なるサウンドトラックを作成する難しさに着想を得て、画像に条件付けられたFoleyの問題を提案する。
– 次に、同じソース映像内の別の時点からサンプリングされた音声-視覚クリップによって、入力映像クリップの音を予測するためのモデルのトレーニングのためのプリテキストタスクを提案する。
– また、ユーザーが指定した映像の「聞こえ方」を示す例が与えられている場合、サイレントな入力映像のサウンドトラックを生成するためのモデルを提案する。
– このモデルは、人間の評価と自動評価指標を通じて、入力例の内容に応じて出力を変化させつつ、映像からサウンドを成功裏に生成することを示した。

要約(オリジナル)

The sound effects that designers add to videos are designed to convey a particular artistic effect and, thus, may be quite different from a scene’s true sound. Inspired by the challenges of creating a soundtrack for a video that differs from its true sound, but that nonetheless matches the actions occurring on screen, we propose the problem of conditional Foley. We present the following contributions to address this problem. First, we propose a pretext task for training our model to predict sound for an input video clip using a conditional audio-visual clip sampled from another time within the same source video. Second, we propose a model for generating a soundtrack for a silent input video, given a user-supplied example that specifies what the video should ‘sound like’. We show through human studies and automated evaluation metrics that our model successfully generates sound from video, while varying its output according to the content of a supplied example. Project site: https://xypb.github.io/CondFoleyGen/

arxiv情報

著者 Yuexi Du,Ziyang Chen,Justin Salamon,Bryan Russell,Andrew Owens
発行日 2023-04-17 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク