MindDiffuser: Controlled Image Reconstruction from Human Brain Activity with Semantic and Structural Diffusion

要約

脳の記録から視覚刺激を再構成することは、有意義かつ困難な作業です。
特に、精密かつ制御可能な画像再構成の実現は、ブレイン・コンピュータ・インターフェースの進歩と利用を推進する上で大きな意義を持ちます。
複雑な画像再構成技術の進歩にも関わらず、意味論 (概念とオブジェクト) と構造 (位置、方向、サイズ) の両方を画像刺激と一貫して調整するという課題は依然として残っています。
前述の問題に対処するために、MindDiffuser と呼ばれる 2 段階の画像再構成モデ​​ルを提案します。
ステージ 1 では、fMRI からデコードされた VQ-VAE 潜在表現と CLIP テキスト埋め込みが安定拡散に入れられ、意味情報を含む予備画像が生成されます。
ステージ 2 では、fMRI からデコードされた CLIP 視覚特徴を監視情報として利用し、ステージ 1 でデコードされた 2 つの特徴ベクトルをバックプロパゲーションによって継続的に調整して構造情報を揃えます。
定性的分析と定量的分析の両方の結果は、私たちのモデルが Natural Scenes Dataset (NSD) の現在の最先端モデルを超えていることを示しています。
その後の実験結果は、採用されたマルチモーダルな特徴の解釈可能性によって証明されているように、モデルの神経生物学的妥当性を裏付けており、対応する脳の反応と一致しています。

要約(オリジナル)

Reconstructing visual stimuli from brain recordings has been a meaningful and challenging task. Especially, the achievement of precise and controllable image reconstruction bears great significance in propelling the progress and utilization of brain-computer interfaces. Despite the advancements in complex image reconstruction techniques, the challenge persists in achieving a cohesive alignment of both semantic (concepts and objects) and structure (position, orientation, and size) with the image stimuli. To address the aforementioned issue, we propose a two-stage image reconstruction model called MindDiffuser. In Stage 1, the VQ-VAE latent representations and the CLIP text embeddings decoded from fMRI are put into Stable Diffusion, which yields a preliminary image that contains semantic information. In Stage 2, we utilize the CLIP visual feature decoded from fMRI as supervisory information, and continually adjust the two feature vectors decoded in Stage 1 through backpropagation to align the structural information. The results of both qualitative and quantitative analyses demonstrate that our model has surpassed the current state-of-the-art models on Natural Scenes Dataset (NSD). The subsequent experimental findings corroborate the neurobiological plausibility of the model, as evidenced by the interpretability of the multimodal feature employed, which align with the corresponding brain responses.

arxiv情報

著者 Yizhuo Lu,Changde Du,Qiongyi zhou,Dianpeng Wang,Huiguang He
発行日 2023-08-08 13:28:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク