要約
この記事では、脳波 (EEG) 記録から自然な音楽を再構築するタスクに、強力な生成モデルのファミリーである潜在拡散モデルを使用する可能性を探ります。
MIDI で生成された曲やモノフォニック作品など、音色が限られた単純な音楽とは異なり、ここでは倍音と音色が豊かで、多様な楽器、声、エフェクトを特徴とする複雑な音楽に焦点を当てています。
この研究は、手動の前処理やチャンネル選択を必要とせず、生データに直接エンドツーエンドのトレーニングアプローチを採用し、非侵襲的なEEGデータを使用して高品質の一般的な音楽再構成を達成するための最初の取り組みを表しています。
私たちは公開されている NMED-T データセットでモデルをトレーニングし、ニューラル埋め込みベースのメトリクスを提案する定量的評価を実行します。
さらに、生成されたトラックに基づいて曲の分類を実行します。
私たちの研究は、ニューラル デコーディングとブレイン コンピューター インターフェイスに関する進行中の研究に貢献し、複雑な聴覚情報の再構築に EEG データを使用する実現可能性についての洞察を提供します。
要約(オリジナル)
In this article, we explore the potential of using latent diffusion models, a family of powerful generative models, for the task of reconstructing naturalistic music from electroencephalogram (EEG) recordings. Unlike simpler music with limited timbres, such as MIDI-generated tunes or monophonic pieces, the focus here is on intricate music featuring a diverse array of instruments, voices, and effects, rich in harmonics and timbre. This study represents an initial foray into achieving general music reconstruction of high-quality using non-invasive EEG data, employing an end-to-end training approach directly on raw data without the need for manual pre-processing and channel selection. We train our models on the public NMED-T dataset and perform quantitative evaluation proposing neural embedding-based metrics. We additionally perform song classification based on the generated tracks. Our work contributes to the ongoing research in neural decoding and brain-computer interfaces, offering insights into the feasibility of using EEG data for complex auditory information reconstruction.
arxiv情報
著者 | Emilian Postolache,Natalia Polouliakh,Hiroaki Kitano,Akima Connelly,Emanuele Rodolà,Taketo Akama |
発行日 | 2024-05-17 13:43:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google