MindDiffuser: Controlled Image Reconstruction from Human Brain Activity with Semantic and Structural Diffusion

要約

測定された機能的磁気共鳴画像法 (fMRI) から視覚刺激を再構築することは、有意義でやりがいのある作業でした。
以前の研究では、一部の自然画像の輪郭やサイズなど、元の画像と同様の構造を持つ再構成に成功しています。
ただし、これらの再構成には明示的な意味情報が欠けており、見分けるのは困難です。
近年、多くの研究で、より強力な生成機能を備えたマルチモーダルの事前トレーニング済みモデルを利用して、元の画像と意味的に類似した画像を再構築しています。
ただし、これらの画像には、位置や向きなどの制御できない構造情報が含まれています。
前述の問題の両方に同時に対処するために、Stable Diffusion を利用した MindDiffuser と呼ばれる 2 段階の画像再構成モデ​​ルを提案します。
ステージ 1 では、fMRI からデコードされた VQ-VAE 潜在表現と CLIP テキスト埋め込みが Stable Diffusion の画像から画像へのプロセスに入れられ、セマンティックおよび構造情報を含む予備画像が生成されます。
ステージ 2 では、fMRI からデコードされた低レベルの CLIP 視覚的特徴を監視情報として利用し、バックプロパゲーションを通じてステージ 1 の 2 つの特徴を継続的に調整して、構造情報を整列させます。
定性分析と定量分析の両方の結果は、提案されたモデルが自然シーン データセット (NSD) の再構成結果に関して現在の最先端モデルを上回っていることを示しています。
さらに、アブレーション実験の結果は、モデルの各コンポーネントが画像再構成に有効であることを示しています。

要約(オリジナル)

Reconstructing visual stimuli from measured functional magnetic resonance imaging (fMRI) has been a meaningful and challenging task. Previous studies have successfully achieved reconstructions with structures similar to the original images, such as the outlines and size of some natural images. However, these reconstructions lack explicit semantic information and are difficult to discern. In recent years, many studies have utilized multi-modal pre-trained models with stronger generative capabilities to reconstruct images that are semantically similar to the original ones. However, these images have uncontrollable structural information such as position and orientation. To address both of the aforementioned issues simultaneously, we propose a two-stage image reconstruction model called MindDiffuser, utilizing Stable Diffusion. In Stage 1, the VQ-VAE latent representations and the CLIP text embeddings decoded from fMRI are put into the image-to-image process of Stable Diffusion, which yields a preliminary image that contains semantic and structural information. In Stage 2, we utilize the low-level CLIP visual features decoded from fMRI as supervisory information, and continually adjust the two features in Stage 1 through backpropagation to align the structural information. The results of both qualitative and quantitative analyses demonstrate that our proposed model has surpassed the current state-of-the-art models in terms of reconstruction results on Natural Scenes Dataset (NSD). Furthermore, the results of ablation experiments indicate that each component of our model is effective for image reconstruction.

arxiv情報

著者 Yizhuo Lu,Changde Du,Dianpeng Wang,Huiguang He
発行日 2023-03-24 16:41:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク