Generative Disco: Text-to-Video Generation for Music Visualization


タイトル:音楽ビジュアライゼーションのためのテキスト・トゥ・ビデオ生成システム「Generative Disco」

– 音楽ビジュアルは、音楽が伝える感情やメッセージを増幅する方法により、私たちが音楽を楽しむ上で重要な要素です。
– しかし、音楽ビジュアライゼーションを作成することは、複雑で時間とリソースを要するプロセスです。
– 「Generative Disco」という生成型AIシステムを紹介し、大規模な言語モデルとテキスト・トゥ・イメージモデルを使用して、音楽ビジュアライゼーションを生成するのを支援します。
– ユーザーは、ビジュアライズする音楽の間隔を選択し、開始および終了プロンプトを定義して、そのビジュアライゼーションをパラメータ化します。
– これらのプロンプトは、ビートに従って変形され、生成され、オーディオリアクティブなビデオが作成されます。
– 生成されたビデオを改善するためのデザインパターン「トランジション」と「ホールド」を紹介します。トランジションは、色、時間、主題、スタイルの変化を表現し、「ホールド」は、視覚的強調と一貫性を促進します。
– プロの研究者による調査では、システムが楽しい、探求しやすい、高度に表現力があることが示されました。
– 最後に、「Generative Disco」のプロフェッショナル向けの使用例と、AI生成コンテンツが創造的な作業の世界を変えつつあることについて説明します。


Visuals are a core part of our experience of music, owing to the way they can amplify the emotions and messages conveyed through the music. However, creating music visualization is a complex, time-consuming, and resource-intensive process. We introduce Generative Disco, a generative AI system that helps generate music visualizations with large language models and text-to-image models. Users select intervals of music to visualize and then parameterize that visualization by defining start and end prompts. These prompts are warped between and generated according to the beat of the music for audioreactive video. We introduce design patterns for improving generated videos: ‘transitions’, which express shifts in color, time, subject, or style, and ‘holds’, which encourage visual emphasis and consistency. A study with professionals showed that the system was enjoyable, easy to explore, and highly expressive. We conclude on use cases of Generative Disco for professionals and how AI-generated content is changing the landscape of creative work.


著者 Vivian Liu,Tao Long,Nathan Raw,Lydia Chilton
発行日 2023-04-17 18:44:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.AI, cs.HC パーマリンク