要約
人間の脳の視覚処理の複雑さを理解するために、脳活動から動的な視覚体験を再構築することは、挑戦的でありながら魅力的な試みである。最近の進歩により、非侵襲的な脳記録から静止画像を再構成することに成功しているが、連続的な脳活動をビデオフォーマットに変換する領域は未解明である。この研究では、ノイズ、空間的な冗長性、時間的な遅れなど、fMRIデータのデコードに固有の課題をターゲットとした、新しい二相フレームワークであるNeuroCineを紹介する。このフレームワークは、fMRI表現を対比的に学習するための空間的マスキングと時間的補間に基づく補強を提案し、映像生成のために依存的な事前ノイズによって強化された拡散モデルを提案する。公開されているfMRIデータセットでテストした結果、本手法は有望な結果を示し、SSIMで測定したfMRIデータセットの3人の被験者の脳活動のデコーディングにおいて、それぞれ${20.97%}$, ${31.00%}$と${12.30%}$の顕著なマージンで、従来の最先端モデルを上回った。さらに、我々の注意分析により、このモデルは既存の脳の構造や機能と一致することが示唆され、その生物学的妥当性と解釈可能性が示された。
要約(オリジナル)
In the pursuit to understand the intricacies of human brain’s visual processing, reconstructing dynamic visual experiences from brain activities emerges as a challenging yet fascinating endeavor. While recent advancements have achieved success in reconstructing static images from non-invasive brain recordings, the domain of translating continuous brain activities into video format remains underexplored. In this work, we introduce NeuroCine, a novel dual-phase framework to targeting the inherent challenges of decoding fMRI data, such as noises, spatial redundancy and temporal lags. This framework proposes spatial masking and temporal interpolation-based augmentation for contrastive learning fMRI representations and a diffusion model enhanced by dependent prior noise for video generation. Tested on a publicly available fMRI dataset, our method shows promising results, outperforming the previous state-of-the-art models by a notable margin of ${20.97\%}$, ${31.00\%}$ and ${12.30\%}$ respectively on decoding the brain activities of three subjects in the fMRI dataset, as measured by SSIM. Additionally, our attention analysis suggests that the model aligns with existing brain structures and functions, indicating its biological plausibility and interpretability.
arxiv情報
著者 | Jingyuan Sun,Mingxiao Li,Zijiao Chen,Marie-Francine Moens |
発行日 | 2024-02-02 17:34:25+00:00 |
arxivサイト | arxiv_id(pdf) |