要約
脳の活動から人間の視覚を再構築することは、私たちの認知プロセスを理解するのに役立つ魅力的な作業です。
最近の研究では、非侵襲的な脳記録から静止画像を再構成することに大きな成功を収めていますが、ビデオの形で連続的な視覚体験を復元する研究は限られています。
この研究では、マスクされた脳モデリング、時空間的注意を伴うマルチモーダル対比学習、およびネットワーク時間インフレーションを組み込んだ拡張安定拡散モデルによる共同トレーニングを通じて、大脳皮質の連続 fMRI データから時空間情報を段階的に学習する Mind-Video を提案します。
敵対的ガイダンスを使用して、Mind-Video で任意のフレーム レートの高品質ビデオを再構築できることを示します。
復元されたビデオは、さまざまなセマンティックおよびピクセルレベルの指標を使用して評価されました。
意味分類タスクでは平均精度 85%、構造類似性指数 (SSIM) では 0.19 を達成し、以前の最先端技術を 45% 上回りました。
また、確立された生理学的プロセスを反映して、私たちのモデルが生物学的にもっともらしく、解釈可能であることも示します。
要約(オリジナル)
Reconstructing human vision from brain activities has been an appealing task that helps to understand our cognitive process. Even though recent research has seen great success in reconstructing static images from non-invasive brain recordings, work on recovering continuous visual experiences in the form of videos is limited. In this work, we propose Mind-Video that learns spatiotemporal information from continuous fMRI data of the cerebral cortex progressively through masked brain modeling, multimodal contrastive learning with spatiotemporal attention, and co-training with an augmented Stable Diffusion model that incorporates network temporal inflation. We show that high-quality videos of arbitrary frame rates can be reconstructed with Mind-Video using adversarial guidance. The recovered videos were evaluated with various semantic and pixel-level metrics. We achieved an average accuracy of 85% in semantic classification tasks and 0.19 in structural similarity index (SSIM), outperforming the previous state-of-the-art by 45%. We also show that our model is biologically plausible and interpretable, reflecting established physiological processes.
arxiv情報
著者 | Zijiao Chen,Jiaxin Qing,Juan Helen Zhou |
発行日 | 2023-05-19 13:44:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google