A Survey on Bridging EEG Signals and Generative AI: From Image and Text to Beyond

要約

脳コンピューターインターフェイス(BCIS)と生成人工知能(GENAI)の統合により、脳信号のデコードで新しいフロンティアが開かれ、支援コミュニケーション、神経表現学習、およびマルチモーダル統合が可能になりました。
BCIS、特に脳波(EEG)を活用するBCIは、神経活動を意味のある出力に変換する非侵襲的な手段を提供します。
生成的敵対的ネットワーク(GANS)および変圧器ベースの大手言語モデル(LLM)を含む最近の深い学習の進歩により、EEGベースの画像、テキスト、音声の世代の世代が大幅に改善されました。
このホワイトペーパーでは、(i)GAN、変分自動エンコーダー(VAE)、および拡散モデルを介したEEGからイメージの生成に焦点を当てたEEGベースのマルチモーダル生成の最先端の文献レビューを提供します。
EEGからテキストの生成トランスベースの言語モデルと対照学習方法を活用します。
さらに、進化するマルチモーダルフロンティアであるEEG-to-Speech合成の新しいドメインについて説明します。
生成アプローチを支える主要なデータセット、ユースケース、課題、EEG機能のエンコードメソッドを強調します。
EEGベースの生成AIの構造化された概要を提供することにより、この調査は、研究者と実践者に神経デコードを前進させ、支援技術を強化し、脳コンピューターの相互作用のフロンティアを拡大するための洞察を提供することを目的としています。

要約(オリジナル)

Integration of Brain-Computer Interfaces (BCIs) and Generative Artificial Intelligence (GenAI) has opened new frontiers in brain signal decoding, enabling assistive communication, neural representation learning, and multimodal integration. BCIs, particularly those leveraging Electroencephalography (EEG), provide a non-invasive means of translating neural activity into meaningful outputs. Recent advances in deep learning, including Generative Adversarial Networks (GANs) and Transformer-based Large Language Models (LLMs), have significantly improved EEG-based generation of images, text, and speech. This paper provides a literature review of the state-of-the-art in EEG-based multimodal generation, focusing on (i) EEG-to-image generation through GANs, Variational Autoencoders (VAEs), and Diffusion Models, and (ii) EEG-to-text generation leveraging Transformer based language models and contrastive learning methods. Additionally, we discuss the emerging domain of EEG-to-speech synthesis, an evolving multimodal frontier. We highlight key datasets, use cases, challenges, and EEG feature encoding methods that underpin generative approaches. By providing a structured overview of EEG-based generative AI, this survey aims to equip researchers and practitioners with insights to advance neural decoding, enhance assistive technologies, and expand the frontiers of brain-computer interaction.

arxiv情報

著者 Shreya Shukla,Jose Torres,Abhijit Mishra,Jacek Gwizdka,Shounak Roychowdhury
発行日 2025-02-17 17:16:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG パーマリンク