Brain-Streams: fMRI-to-Image Reconstruction with Multi-modal Guidance

要約

人間が視覚情報をどのように処理するかを理解することは、脳活動の根底にあるメカニズムを解明するための重要なステップの 1 つです。
最近、この好奇心が fMRI から画像再構成タスクに動機付けられています。
視覚刺激からの fMRI データが与えられると、対応する視覚刺激を再構築することを目的としています。
驚くべきことに、潜在拡散モデル (LDM) などの強力な生成モデルを活用することで、視覚データセットから高解像度の自然画像などの複雑な視覚刺激を再構成する有望な結果が示されました。
これらの再構築の印象的な構造忠実度にもかかわらず、小さなオブジェクト、曖昧な形状、意味上のニュアンスの詳細が欠けていることがよくあります。
その結果、単なるビジュアルを超えた追加の意味論的な知識を組み込むことが不可欠になります。
これを考慮して、構造的および意味的に妥当な画像生成のために、最新の LDM がマルチモーダル ガイダンス (テキスト ガイダンス、視覚的ガイダンス、画像レイアウト) を効果的に組み込む方法を活用します。
具体的には、知覚情報と意味情報が異なる脳領域で処理されることを示唆する 2 ストリーム仮説に触発されて、私たちのフレームワークである Brain-Streams は、これらの脳領域からの fMRI 信号を適切な埋め込みにマッピングします。
つまり、Brain-Streams は、意味情報領域からテキスト ガイダンスを抽出し、知覚情報領域から視覚ガイダンスを抽出することにより、LDM に正確なマルチモーダル ガイダンスを提供します。
自然画像刺激と fMRI データで構成される実際の fMRI データセット上で、Brain-Streams の再構成能力を定量的および定性的に検証します。

要約(オリジナル)

Understanding how humans process visual information is one of the crucial steps for unraveling the underlying mechanism of brain activity. Recently, this curiosity has motivated the fMRI-to-image reconstruction task; given the fMRI data from visual stimuli, it aims to reconstruct the corresponding visual stimuli. Surprisingly, leveraging powerful generative models such as the Latent Diffusion Model (LDM) has shown promising results in reconstructing complex visual stimuli such as high-resolution natural images from vision datasets. Despite the impressive structural fidelity of these reconstructions, they often lack details of small objects, ambiguous shapes, and semantic nuances. Consequently, the incorporation of additional semantic knowledge, beyond mere visuals, becomes imperative. In light of this, we exploit how modern LDMs effectively incorporate multi-modal guidance (text guidance, visual guidance, and image layout) for structurally and semantically plausible image generations. Specifically, inspired by the two-streams hypothesis suggesting that perceptual and semantic information are processed in different brain regions, our framework, Brain-Streams, maps fMRI signals from these brain regions to appropriate embeddings. That is, by extracting textual guidance from semantic information regions and visual guidance from perceptual information regions, Brain-Streams provides accurate multi-modal guidance to LDMs. We validate the reconstruction ability of Brain-Streams both quantitatively and qualitatively on a real fMRI dataset comprising natural image stimuli and fMRI data.

arxiv情報

著者 Jaehoon Joo,Taejin Jeong,Seongjae Hwang
発行日 2024-09-18 16:19:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク