BrainVis: Exploring the Bridge between Brain and Visual Signals via Image Reconstruction

要約

脳信号から視覚刺激を分析および再構成することにより、人間の視覚システムの理解が効果的に進みます。
ただし、EEG 信号は複雑で、かなりのノイズが含まれています。
これは、EEG 埋め込みを粒度の細かい意味情報と調整することが困難であることや、トレーニング用に追加の自己収集された大規模なデータセットに大きく依存することなど、EEG から視覚刺激を再構成する既存の作業に大きな制限をもたらします。
これらの課題に対処するために、私たちは BrainVis と呼ばれる新しいアプローチを提案します。
まず、トレーニングの難しさを軽減するために、EEG 信号をさまざまなユニットに分割し、自己教師ありアプローチを適用して EEG 時間領域の特徴を取得します。
さらに、EEG 表現を強化するために周波数領域の特徴を利用することも提案します。
次に、EEG の時間周波数埋め込みを CLIP 空間の粗粒セマンティクスと細粒セマンティクスの補間と同時に位置合わせして、主要な視覚コンポーネントを強調表示し、クロスモーダル位置合わせの困難さを軽減します。
最後に、カスケード拡散モデルを採用して画像を再構成します。
以前の研究のわずか 10% のトレーニング データを使用するだけで、私たちが提案する BrainVis は、セマンティック忠実度の再構築と生成品質の両方で最先端のパフォーマンスを上回ります。
コードは https://github.com/RomGai/BrainVis で入手できます。

要約(オリジナル)

Analyzing and reconstructing visual stimuli from brain signals effectively advances the understanding of human visual system. However, the EEG signals are complex and contain significant noise. This leads to substantial limitations in existing works of visual stimuli reconstruction from EEG, such as difficulties in aligning EEG embeddings with the fine-grained semantic information and a heavy reliance on additional large self-collected dataset for training. To address these challenges, we propose a novel approach called BrainVis. Firstly, we divide the EEG signals into various units and apply a self-supervised approach on them to obtain EEG time-domain features, in an attempt to ease the training difficulty. Additionally, we also propose to utilize the frequency-domain features to enhance the EEG representations. Then, we simultaneously align EEG time-frequency embeddings with the interpolation of the coarse and fine-grained semantics in the CLIP space, to highlight the primary visual components and reduce the cross-modal alignment difficulty. Finally, we adopt the cascaded diffusion models to reconstruct images. Using only 10\% training data of the previous work, our proposed BrainVis outperforms state of the arts in both semantic fidelity reconstruction and generation quality. The code is available at https://github.com/RomGai/BrainVis.

arxiv情報

著者 Honghao Fu,Zhiqi Shen,Jing Jih Chin,Hao Wang
発行日 2024-08-20 14:06:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク