Natural scene reconstruction from fMRI signals using generative latent diffusion

要約

ニューラル デコーディングの研究において、最も興味深いトピックの 1 つは、fMRI 信号に基づいて知覚された自然画像の再構成です。
これまでの研究では、低レベルのプロパティ (形状、テクスチャ、レイアウト) や高レベルの特徴 (オブジェクトのカテゴリ、シーンの説明的意味論) などのビジュアルのさまざまな側面を再作成することに成功しましたが、通常、これらのプロパティを再構築することはできませんでした。
複雑なシーン画像の場合は一緒に使用します。
生成 AI は最近、高度に複雑な画像を生成できる潜在拡散モデルによって飛躍的に進歩しました。
ここでは、この革新的なテクノロジーを脳のデコードに活用する方法を調査します。
「Brain-Diffuser」と呼ばれる2段階のシーン再構築フレームワークを紹介します。
第 1 段階では、fMRI 信号から開始して、VDVAE (Very Deep variational Autoencoder) モデルを使用して、低レベルの特性と全体的なレイアウトをキャプチャする画像を再構成します。
第 2 段階では、予測されたマルチモーダル (テキストとビジュアル) 特徴に条件付けされた潜在拡散モデル (Versatile Diffusion) の画像から画像へのフレームワークを使用して、最終的な再構成画像を生成します。
公開されている Natural Scenes Dataset ベンチマークでは、私たちの手法は定性的にも量的にも以前のモデルを上回っています。
個々の ROI (関心領域) マスクから生成された合成 fMRI パターンに適用すると、トレーニングされたモデルは、神経科学の知識と一致する説得力のある「ROI 最適化」シーンを作成します。
したがって、提案された方法論は、応用(脳とコンピューターのインターフェイスなど)および基礎的な神経科学の両方に影響を与える可能性があります。

要約(オリジナル)

In neural decoding research, one of the most intriguing topics is the reconstruction of perceived natural images based on fMRI signals. Previous studies have succeeded in re-creating different aspects of the visuals, such as low-level properties (shape, texture, layout) or high-level features (category of objects, descriptive semantics of scenes) but have typically failed to reconstruct these properties together for complex scene images. Generative AI has recently made a leap forward with latent diffusion models capable of generating high-complexity images. Here, we investigate how to take advantage of this innovative technology for brain decoding. We present a two-stage scene reconstruction framework called “Brain-Diffuser”. In the first stage, starting from fMRI signals, we reconstruct images that capture low-level properties and overall layout using a VDVAE (Very Deep Variational Autoencoder) model. In the second stage, we use the image-to-image framework of a latent diffusion model (Versatile Diffusion) conditioned on predicted multimodal (text and visual) features, to generate final reconstructed images. On the publicly available Natural Scenes Dataset benchmark, our method outperforms previous models both qualitatively and quantitatively. When applied to synthetic fMRI patterns generated from individual ROI (region-of-interest) masks, our trained model creates compelling “ROI-optimal” scenes consistent with neuroscientific knowledge. Thus, the proposed methodology can have an impact on both applied (e.g. brain-computer interface) and fundamental neuroscience.

arxiv情報

著者 Furkan Ozcelik,Rufin VanRullen
発行日 2023-06-21 07:15:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, q-bio.NC パーマリンク