Brain-Diffuser: Natural scene reconstruction from fMRI signals using generative latent diffusion

要約

ニューラル デコーディングの研究で最も興味深いトピックの 1 つは、fMRI 信号に基づく知覚された自然画像の再構成です。
以前の研究では、低レベルのプロパティ (形状、テクスチャ、レイアウト) や高レベルの機能 (オブジェクトのカテゴリ、シーンの記述的セマンティクス) など、ビジュアルのさまざまな側面を再現することに成功していますが、通常、これらのプロパティを再構築することはできませんでした。
一緒に複雑なシーン イメージを作成します。
ジェネレーティブ AI は最近、高度に複雑な画像を生成できる潜在拡散モデルによって飛躍的な進歩を遂げました。
ここでは、この革新的なテクノロジーを脳の解読に利用する方法を調査します。
「Brain-Diffuser」と呼ばれる 2 段階のシーン再構成フレームワークを紹介します。
最初の段階では、fMRI 信号から始めて、VDVAE (Very Deep Variational Autoencoder) モデルを使用して、低レベルのプロパティと全体的なレイアウトをキャプチャする画像を再構成します。
第 2 段階では、予測されたマルチモーダル (テキストおよびビジュアル) 機能を条件とする潜在拡散モデル (Versatile Diffusion) の画像から画像へのフレームワークを使用して、最終的な再構成画像を生成します。
公開されている Natural Scenes Dataset ベンチマークでは、私たちの方法は質的にも量的にも以前のモデルよりも優れています。
個々の ROI (関心領域) マスクから生成された合成 fMRI パターンに適用すると、トレーニング済みモデルは、神経科学の知識と一致する説得力のある「ROI 最適」シーンを作成します。
したがって、提案された方法論は、応用 (例えば、脳とコンピューターのインターフェイス) と基本的な神経科学の両方に影響を与える可能性があります。

要約(オリジナル)

In neural decoding research, one of the most intriguing topics is the reconstruction of perceived natural images based on fMRI signals. Previous studies have succeeded in re-creating different aspects of the visuals, such as low-level properties (shape, texture, layout) or high-level features (category of objects, descriptive semantics of scenes) but have typically failed to reconstruct these properties together for complex scene images. Generative AI has recently made a leap forward with latent diffusion models capable of generating high-complexity images. Here, we investigate how to take advantage of this innovative technology for brain decoding. We present a two-stage scene reconstruction framework called “Brain-Diffuser”. In the first stage, starting from fMRI signals, we reconstruct images that capture low-level properties and overall layout using a VDVAE (Very Deep Variational Autoencoder) model. In the second stage, we use the image-to-image framework of a latent diffusion model (Versatile Diffusion) conditioned on predicted multimodal (text and visual) features, to generate final reconstructed images. On the publicly available Natural Scenes Dataset benchmark, our method outperforms previous models both qualitatively and quantitatively. When applied to synthetic fMRI patterns generated from individual ROI (region-of-interest) masks, our trained model creates compelling “ROI-optimal” scenes consistent with neuroscientific knowledge. Thus, the proposed methodology can have an impact on both applied (e.g. brain-computer interface) and fundamental neuroscience.

arxiv情報

著者 Furkan Ozcelik,Rufin VanRullen
発行日 2023-03-09 15:24:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, q-bio.NC パーマリンク