Long-Form Text-to-Music Generation with Adaptive Prompts: A Case of Study in Tabletop Role-Playing Games Soundtracks

要約

この論文では、テーブルトップ ロール プレイング ゲーム (TRPG) のサウンドトラック生成に焦点を当て、時間の経過とともに変化するプロンプトを備えた長編音楽を生成する際の、テキストからオーディオへの音楽生成モデルの機能を調査します。
Babel Bardo は、大規模言語モデル (LLM) を使用して音声転写を音楽記述に変換し、テキストから音楽へのモデルを制御するシステムです。
Babel Bardo の 4 つのバージョンが 2 つの TRPG キャンペーンで比較されました。1 つは直接音声文字起こしを使用したベースライン、もう 1 つは音楽記述の生成にさまざまなアプローチを使用した 3 つの LLM ベースのバージョンです。
評価では、オーディオの品質、ストーリーの整合性、移行のスムーズさが考慮されました。
結果は、詳細な音楽の説明によりオーディオ品質が向上すると同時に、連続する説明全体で一貫性を維持することで、ストーリーの整合性と移行のスムーズさが向上することを示しています。

要約(オリジナル)

This paper investigates the capabilities of text-to-audio music generation models in producing long-form music with prompts that change over time, focusing on soundtrack generation for Tabletop Role-Playing Games (TRPGs). We introduce Babel Bardo, a system that uses Large Language Models (LLMs) to transform speech transcriptions into music descriptions for controlling a text-to-music model. Four versions of Babel Bardo were compared in two TRPG campaigns: a baseline using direct speech transcriptions, and three LLM-based versions with varying approaches to music description generation. Evaluations considered audio quality, story alignment, and transition smoothness. Results indicate that detailed music descriptions improve audio quality while maintaining consistency across consecutive descriptions enhances story alignment and transition smoothness.

arxiv情報

著者 Felipe Marra,Lucas N. Ferreira
発行日 2024-11-06 14:29:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MM, cs.NE, cs.SD, eess.AS パーマリンク