DisMix: Disentangling Mixtures of Musical Instruments for Source-level Pitch and Timbre Manipulation

要約

ピッチと音色のもつれを解くことに関する既存の研究は、複数の楽器が提示される場合を除き、主に単一楽器の音楽オーディオに焦点を当ててきました。
このギャップを埋めるために、私たちは生成フレームワークである DisMix を提案します。このフレームワークでは、ピッチと音色の表現が、ソースのメロディーと楽器を構築するためのモジュール構成要素として機能し、そのコレクションが、その基礎となる楽器ごとの潜在表現のセットを形成します。
混合物が観察されました。
表現を操作することにより、私たちのモデルは、構成楽器のピッチと音色の新しい組み合わせを持つ混合物をサンプリングします。
私たちは、もつれの解けたピッチと音色の表現と、一連のソースレベル表現に基づいて条件付けされた混合を再構築する潜在拡散変換器を共同して学習することができます。
孤立した和音の単純なデータセットと、J.S. スタイルの現実的な 4 部構成のコラールの両方を使用してモデルを評価します。
Bach 氏、解きほぐしを成功させるための主要なコンポーネントを特定し、ソースレベルの属性操作に基づいた混合変換の適用を示します。

要約(オリジナル)

Existing work on pitch and timbre disentanglement has been mostly focused on single-instrument music audio, excluding the cases where multiple instruments are presented. To fill the gap, we propose DisMix, a generative framework in which the pitch and timbre representations act as modular building blocks for constructing the melody and instrument of a source, and the collection of which forms a set of per-instrument latent representations underlying the observed mixture. By manipulating the representations, our model samples mixtures with novel combinations of pitch and timbre of the constituent instruments. We can jointly learn the disentangled pitch-timbre representations and a latent diffusion transformer that reconstructs the mixture conditioned on the set of source-level representations. We evaluate the model using both a simple dataset of isolated chords and a realistic four-part chorales in the style of J.S. Bach, identify the key components for the success of disentanglement, and demonstrate the application of mixture transformation based on source-level attribute manipulation.

arxiv情報

著者 Yin-Jyun Luo,Kin Wai Cheuk,Woosung Choi,Toshimitsu Uesaka,Keisuke Toyama,Koichi Saito,Chieh-Hsin Lai,Yuhta Takida,Wei-Hsiang Liao,Simon Dixon,Yuki Mitsufuji
発行日 2024-08-20 12:56:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS パーマリンク