Generative Disco: Text-to-Video Generation for Music Visualization

要約

ビジュアルは、その中で伝わる感情やメッセージを増幅させることができるため、私たちの音楽体験を向上させることができます。
ただし、音楽のビジュアライゼーションの作成は、複雑で時間とリソースを大量に消費するプロセスです。
大規模な言語モデルとテキストからビデオへの生成を使用して音楽ビジュアライゼーションを生成するのに役立つ生成 AI システムである Generative Disco を紹介します。
このシステムは、ユーザーがインターバルの開始と終了のイメージを説明するプロンプトを見つけて、音楽のビートに合わせてイメージ間を補間することで、ユーザーがインターバル内の音楽を視覚化するのに役立ちます。
これらの生成されたビデオを改善するためのデザイン パターン、つまり色、時間、主題、またはスタイルの変化を表現するトランジションと、ビデオを主題に集中させるのに役立つホールドを紹介します。
専門家を対象とした研究では、トランジションとホールドが、一貫した視覚的な物語を構築できる非常に表現力豊かなフレームワークであることが示されました。
これらのパターンの一般化可能性と、クリエイティブな専門家にとって生成されたビデオの可能性について結論を導き出します。

要約(オリジナル)

Visuals can enhance our experience of music, owing to the way they can amplify the emotions and messages conveyed within it. However, creating music visualization is a complex, time-consuming, and resource-intensive process. We introduce Generative Disco, a generative AI system that helps generate music visualizations with large language models and text-to-video generation. The system helps users visualize music in intervals by finding prompts to describe the images that intervals start and end on and interpolating between them to the beat of the music. We introduce design patterns for improving these generated videos: transitions, which express shifts in color, time, subject, or style, and holds, which help focus the video on subjects. A study with professionals showed that transitions and holds were a highly expressive framework that enabled them to build coherent visual narratives. We conclude on the generalizability of these patterns and the potential of generated video for creative professionals.

arxiv情報

著者 Vivian Liu,Tao Long,Nathan Raw,Lydia Chilton
発行日 2023-09-28 16:14:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC パーマリンク