BrainVis: Exploring the Bridge between Brain and Visual Signals via Image Reconstruction

要約

脳信号からの視覚刺激を分析および再構成することにより、人間の視覚システムの理解が効果的に進みます。
ただし、EEG 信号は複雑であり、大量のノイズが含まれています。
これは、脳波からの視覚刺激再構成の既存の作業に実質的な制限をもたらします。たとえば、脳波埋め込みをきめ細かい意味情報と調整することが困難であることや、トレーニング用に追加の自己収集された大規模なデータセットに大きく依存することなどが挙げられます。
これらの課題に対処するために、私たちは BrainVis と呼ばれる新しいアプローチを提案します。
まず、トレーニングの難しさを軽減するために、EEG 信号をさまざまなユニットに分割し、自己教師ありアプローチを適用して EEG 時間領域の特徴を取得します。
さらに、EEG 表現を強化するために周波数領域の特徴を利用することも提案します。
次に、EEG の時間周波数埋め込みを CLIP 空間の粗粒セマンティクスと細粒セマンティクスの補間と同時に位置合わせして、主要な視覚コンポーネントを強調表示し、クロスモーダル位置合わせの困難さを軽減します。
最後に、カスケード拡散モデルを採用して画像を再構成します。
私たちが提案する BrainVis は、セマンティック忠実度の再構築と生成品質の両方において最先端技術を上回っています。
特に、トレーニング データの規模を以前の作業の 10% に削減しました。

要約(オリジナル)

Analyzing and reconstructing visual stimuli from brain signals effectively advances understanding of the human visual system. However, the EEG signals are complex and contain a amount of noise. This leads to substantial limitations in existing works of visual stimuli reconstruction from EEG, such as difficulties in aligning EEG embeddings with the fine-grained semantic information and a heavy reliance on additional large self-collected dataset for training. To address these challenges, we propose a novel approach called BrainVis. Firstly, we divide the EEG signals into various units and apply a self-supervised approach on them to obtain EEG time-domain features, in an attempt to ease the training difficulty. Additionally, we also propose to utilize the frequency-domain features to enhance the EEG representations. Then, we simultaneously align EEG time-frequency embeddings with the interpolation of the coarse and fine-grained semantics in the CLIP space, to highlight the primary visual components and reduce the cross-modal alignment difficulty. Finally, we adopt the cascaded diffusion models to reconstruct images. Our proposed BrainVis outperforms state of the arts in both semantic fidelity reconstruction and generation quality. Notably, we reduce the training data scale to 10% of the previous work.

arxiv情報

著者 Honghao Fu,Zhiqi Shen,Jing Jih Chin,Hao Wang
発行日 2023-12-22 17:49:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク