要約
私たちのカンファレンス活動で Recon3DMind として紹介された、機能的磁気共鳴画像法 (fMRI) データからの 3D ビジュアルの再構成は、認知神経科学とコンピューター ビジョンの両方にとって非常に興味深いものです。
このタスクを進めるために、15 人の参加者からのデータを含み、合計 4768 個の 3D オブジェクトを示す fMRI-3D データセットを提示します。
データセットは 2 つのコンポーネントで構成されます。fMRI-Shape (以前に紹介され https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape でアクセス可能) と fMRI-Objaverse (この論文で提案され https://huggingface で入手可能)
.co/datasets/Fudan-fMRI/fMRI-Objaverse。
fMRI-Objaverse には 5 人の被験者からのデータが含まれており、そのうち 4 人は fMRI-Shape のコア セットの一部でもあり、各被験者は 117 カテゴリにわたる 3142 個の 3D オブジェクトを表示しており、すべてテキスト キャプションが付いています。
これにより、データセットの多様性と潜在的なアプリケーションが大幅に強化されます。
さらに、fMRI 信号から 3D 視覚情報をデコードするように設計された新しいフレームワークである MinD-3D を提案します。
このフレームワークは、まずニューロフュージョンエンコーダーを使用して fMRI データから特徴を抽出および集約し、次にフィーチャーブリッジ拡散モデルを使用して視覚特徴を生成し、最後に生成トランスフォーマーデコーダーを使用して 3D オブジェクトを再構成します。
モデルのパフォーマンスを評価するために、セマンティック レベルと構造レベルの両方でメトリクスを設計することにより、新しいベンチマークを確立します。
さらに、分布外設定でモデルの有効性を評価し、抽出された特徴と fMRI 信号の視覚的 ROI の帰属を分析します。
私たちの実験は、MinD-3D が高い意味的および空間的精度で 3D オブジェクトを再構成するだけでなく、人間の脳が 3D 視覚情報を処理する方法についての理解を深められることを示しています。
プロジェクトページ: https://jianxgao.github.io/MinD-3D。
要約(オリジナル)
Reconstructing 3D visuals from functional Magnetic Resonance Imaging (fMRI) data, introduced as Recon3DMind in our conference work, is of significant interest to both cognitive neuroscience and computer vision. To advance this task, we present the fMRI-3D dataset, which includes data from 15 participants and showcases a total of 4768 3D objects. The dataset comprises two components: fMRI-Shape, previously introduced and accessible at https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape, and fMRI-Objaverse, proposed in this paper and available at https://huggingface.co/datasets/Fudan-fMRI/fMRI-Objaverse. fMRI-Objaverse includes data from 5 subjects, 4 of whom are also part of the Core set in fMRI-Shape, with each subject viewing 3142 3D objects across 117 categories, all accompanied by text captions. This significantly enhances the diversity and potential applications of the dataset. Additionally, we propose MinD-3D, a novel framework designed to decode 3D visual information from fMRI signals. The framework first extracts and aggregates features from fMRI data using a neuro-fusion encoder, then employs a feature-bridge diffusion model to generate visual features, and finally reconstructs the 3D object using a generative transformer decoder. We establish new benchmarks by designing metrics at both semantic and structural levels to evaluate model performance. Furthermore, we assess our model’s effectiveness in an Out-of-Distribution setting and analyze the attribution of the extracted features and the visual ROIs in fMRI signals. Our experiments demonstrate that MinD-3D not only reconstructs 3D objects with high semantic and spatial accuracy but also deepens our understanding of how human brain processes 3D visual information. Project page at: https://jianxgao.github.io/MinD-3D.
arxiv情報
著者 | Jianxiong Gao,Yuqian Fu,Yun Wang,Xuelin Qian,Jianfeng Feng,Yanwei Fu |
発行日 | 2024-09-17 16:13:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google