要約
象徴的な音楽は、生成、転写、合成、音楽情報検索 (MIR) などのさまざまな深層学習タスクで広く使用されています。
これは主に、音楽をトークン化する、つまりトークンと呼ばれる個別の要素のシーケンスにフォーマットする必要がある、トランスフォーマーのような個別のモデルで使用されます。
トークン化はさまざまな方法で実行できます。
Transformer は推論に苦労することがありますが、より簡単に明示的な情報を取得できるため、そのようなモデルの情報の表現方法がパフォーマンスにどのような影響を与えるかを研究することが重要です。
この作業では、一般的なトークン化方法を分析し、時間と音符の長さの表現を実験します。
作曲家と感情の分類、音楽生成、シーケンス表現の学習など、いくつかのタスクにおけるこれら 2 つの影響力のある基準のパフォーマンスを比較します。
明示的な情報がタスクに応じてより良い結果につながることを実証します。
要約(オリジナル)
Symbolic music is widely used in various deep learning tasks, including generation, transcription, synthesis, and Music Information Retrieval (MIR). It is mostly employed with discrete models like Transformers, which require music to be tokenized, i.e., formatted into sequences of distinct elements called tokens. Tokenization can be performed in different ways. As Transformer can struggle at reasoning, but capture more easily explicit information, it is important to study how the way the information is represented for such model impact their performances. In this work, we analyze the common tokenization methods and experiment with time and note duration representations. We compare the performances of these two impactful criteria on several tasks, including composer and emotion classification, music generation, and sequence representation learning. We demonstrate that explicit information leads to better results depending on the task.
arxiv情報
著者 | Nathan Fradet,Nicolas Gutowski,Fabien Chhel,Jean-Pierre Briot |
発行日 | 2023-10-12 16:56:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google