Exploring Sampling Techniques for Generating Melodies with a Transformer Language Model

要約

自然言語処理の研究では、トレーニングされた自己回帰言語モデルからの生成の品質が、使用されるサンプリング戦略に大きく影響されることが実証されています。
この研究では、さまざまなサンプリング技術が多様性や構造などの音楽的性質に及ぼす影響を調査します。
これを達成するために、高度に構造化されたアイルランド民謡の膨大なコレクションで大容量トランス モデルをトレーニングし、分布切り捨てサンプリング技術を使用して生成されたサンプルの音楽的品質を分析します。
具体的には、核サンプリング、最近提案された「典型的サンプリング」、および従来の祖先サンプリングを使用します。
これらのサンプリング戦略の効果を 2 つのシナリオで評価します。1 つは適切にキャリブレーションされたモデルによる最適な状況、もう 1 つはモデルのパフォーマンスを系統的に低下させる準最適な状況です。
生成されたサンプルを客観的および主観的な評価を使用して評価します。
私たちは、確率切り捨て技術が最適な状況では多様性と構造パターンを制限する可能性があるが、最適ではない状況ではより多くの音楽サンプルを生成する可能性があることを発見しました。

要約(オリジナル)

Research in natural language processing has demonstrated that the quality of generations from trained autoregressive language models is significantly influenced by the used sampling strategy. In this study, we investigate the impact of different sampling techniques on musical qualities such as diversity and structure. To accomplish this, we train a high-capacity transformer model on a vast collection of highly-structured Irish folk melodies and analyze the musical qualities of the samples generated using distribution truncation sampling techniques. Specifically, we use nucleus sampling, the recently proposed ‘typical sampling’, and conventional ancestral sampling. We evaluate the effect of these sampling strategies in two scenarios: optimal circumstances with a well-calibrated model and suboptimal circumstances where we systematically degrade the model’s performance. We assess the generated samples using objective and subjective evaluations. We discover that probability truncation techniques may restrict diversity and structural patterns in optimal circumstances, but may also produce more musical samples in suboptimal circumstances.

arxiv情報

著者 Mathias Rose Bjare,Stefan Lattner,Gerhard Widmer
発行日 2023-08-18 10:34:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク