Naturalistic Music Decoding from EEG Data via Latent Diffusion Models

要約

この論文では、脳波記録から自然主義的な音楽を再構成するタスクに、強力な生成モデルのファミリーである潜在拡散モデルを使用する可能性を探る。MIDIで生成された曲や単旋律の曲のような、音色が限定された単純な音楽とは異なり、ここでは、倍音や音色に富んだ、多様な楽器、声、エフェクトを特徴とする複雑な音楽に焦点を当てる。本研究は、非侵襲的EEGデータを用いて高品質な一般的音楽再構成を実現するための最初の試みであり、手作業による前処理やチャンネル選択を必要とせず、生データを直接使用するエンドツーエンドの学習アプローチを採用している。公開されているNMED-Tデータセットでモデルを訓練し、ニューラル・エンベッディングに基づくメトリクスを提案して定量的評価を行う。さらに、生成されたトラックに基づいて曲の分類を行う。本研究は、複雑な聴覚情報の再構成にEEGデータを使用することの実現可能性についての洞察を提供し、現在進行中のニューラル・デコーディングとブレイン・コンピュータ・インターフェイスの研究に貢献するものである。

要約(オリジナル)

In this article, we explore the potential of using latent diffusion models, a family of powerful generative models, for the task of reconstructing naturalistic music from electroencephalogram (EEG) recordings. Unlike simpler music with limited timbres, such as MIDI-generated tunes or monophonic pieces, the focus here is on intricate music featuring a diverse array of instruments, voices, and effects, rich in harmonics and timbre. This study represents an initial foray into achieving general music reconstruction of high-quality using non-invasive EEG data, employing an end-to-end training approach directly on raw data without the need for manual pre-processing and channel selection. We train our models on the public NMED-T dataset and perform quantitative evaluation proposing neural embedding-based metrics. We additionally perform song classification based on the generated tracks. Our work contributes to the ongoing research in neural decoding and brain-computer interfaces, offering insights into the feasibility of using EEG data for complex auditory information reconstruction.

arxiv情報

著者 Emilian Postolache,Natalia Polouliakh,Hiroaki Kitano,Akima Connelly,Emanuele Rodolà,Luca Cosmo,Taketo Akama
発行日 2024-07-03 17:33:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク