MinD-3D: Reconstruct High-quality 3D objects in Human Brain


この論文では、機能的磁気共鳴画像法 (fMRI) 信号から 3D ビジュアルを再構築することを目的とした革新的なタスクである Recon3DMind について紹介します。これは、認知神経科学とコンピューター ビジョンの分野で大きな進歩をもたらします。
この先駆的なタスクをサポートするために、私たちは fMRI-Shape データセットを紹介します。これには 14 人の参加者からのデータが含まれており、3D オブジェクトの 360 度ビデオを備えており、さまざまな設定にわたって包括的な fMRI 信号のキャプチャを可能にし、それによって将来の研究の基礎を築きます。
さらに、fMRI 信号から脳の 3D 視覚情報をデコードするために特別に設計された、新しく効果的な 3 段階のフレームワークである MinD-3D を提案し、この困難なタスクの実現可能性を実証します。
このフレームワークは、神経融合エンコーダーを通じて fMRI フレームから特徴を抽出して集約することから始まり、続いて特徴ブリッジ拡散モデルを採用して視覚特徴を生成し、最終的に生成トランスフォーマー デコーダーを通じて 3D オブジェクトを復元します。
私たちは一連の意味論的および構造的メトリクスを使用して MinD-3D のパフォーマンスを評価し、モデルによって抽出された特徴と fMRI 信号の視覚的関心領域 (ROI) の間の相関を分析します。
私たちの調査結果は、MinD-3D が高い意味的関連性と空間的類似性を持って 3D オブジェクトを再構成するだけでなく、3D 視覚情報を処理する人間の脳の能力についての理解を大幅に高めることを示しています。
プロジェクトページ: https://jianxgao.github.io/MinD-3D。


In this paper, we introduce Recon3DMind, an innovative task aimed at reconstructing 3D visuals from Functional Magnetic Resonance Imaging (fMRI) signals, marking a significant advancement in the fields of cognitive neuroscience and computer vision. To support this pioneering task, we present the fMRI-Shape dataset, which includes data from 14 participants and features 360-degree videos of 3D objects to enable comprehensive fMRI signal capture across various settings, thereby laying a foundation for future research. Furthermore, we propose MinD-3D, a novel and effective three-stage framework specifically designed to decode the brain’s 3D visual information from fMRI signals, demonstrating the feasibility of this challenging task. The framework begins by extracting and aggregating features from fMRI frames through a neuro-fusion encoder, subsequently employs a feature bridge diffusion model to generate visual features, and ultimately recovers the 3D object via a generative transformer decoder. We assess the performance of MinD-3D using a suite of semantic and structural metrics and analyze the correlation between the features extracted by our model and the visual regions of interest (ROIs) in fMRI signals. Our findings indicate that MinD-3D not only reconstructs 3D objects with high semantic relevance and spatial similarity but also significantly enhances our understanding of the human brain’s capabilities in processing 3D visual information. Project page at: https://jianxgao.github.io/MinD-3D.


著者 Jianxiong Gao,Yuqian Fu,Yun Wang,Xuelin Qian,Jianfeng Feng,Yanwei Fu
発行日 2024-07-18 16:31:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク