NeuroClips: Towards High-fidelity and Smooth fMRI-to-Video Reconstruction

要約

非侵襲脳活動からの静的視覚刺激の再構成 fMRI は、CLIP や安定拡散などの高度な深層学習モデルを備え、大きな成功を収めています。
しかし、連続的な視覚体験の時空間認識を解読するのは非常に困難であるため、fMRI からビデオへの再構成に関する研究は依然として限られています。
私たちは、これらの課題に対処する鍵は、ビデオ刺激に応じて脳によって認識される高レベルのセマンティクスと低レベルの知覚フローの両方を正確に解読することにあると主張します。
最後に、fMRI から高忠実度で滑らかなビデオをデコードする革新的なフレームワークである NeuroClips を提案します。
NeuroClips は、セマンティクス再構築器を利用してビデオ キーフレームを再構築し、セマンティクスの精度と一貫性を導きます。また、知覚再構築器を利用して低レベルの知覚の詳細をキャプチャし、ビデオの滑らかさを確保します。
推論中に、キーフレームとビデオ再構築のための低レベルの認識フローの両方が注入された事前トレーニングされた T2V 拡散モデルが採用されます。
公的に利用可能な fMRI ビデオ データセットで評価された NeuroClips は、8FPS で最大 6 秒のスムーズな高忠実度ビデオ再構成を実現し、さまざまな指標で最先端のモデルと比べて大幅な改善が得られます (SSIM で 128% の改善など)。
そして、時空間メトリクスが 81\% 向上しました。
私たちのプロジェクトは https://github.com/gongzix/NeuroClips}{https://github.com/gongzix/NeuroClips で入手できます。

要約(オリジナル)

Reconstruction of static visual stimuli from non-invasion brain activity fMRI achieves great success, owning to advanced deep learning models such as CLIP and Stable Diffusion. However, the research on fMRI-to-video reconstruction remains limited since decoding the spatiotemporal perception of continuous visual experiences is formidably challenging. We contend that the key to addressing these challenges lies in accurately decoding both high-level semantics and low-level perception flows, as perceived by the brain in response to video stimuli. To the end, we propose NeuroClips, an innovative framework to decode high-fidelity and smooth video from fMRI. NeuroClips utilizes a semantics reconstructor to reconstruct video keyframes, guiding semantic accuracy and consistency, and employs a perception reconstructor to capture low-level perceptual details, ensuring video smoothness. During inference, it adopts a pre-trained T2V diffusion model injected with both keyframes and low-level perception flows for video reconstruction. Evaluated on a publicly available fMRI-video dataset, NeuroClips achieves smooth high-fidelity video reconstruction of up to 6s at 8FPS, gaining significant improvements over state-of-the-art models in various metrics, e.g., a 128\% improvement in SSIM and an 81\% improvement in spatiotemporal metrics. Our project is available at https://github.com/gongzix/NeuroClips}{https://github.com/gongzix/NeuroClips.

arxiv情報

著者 Zixuan Gong,Guangyin Bao,Qi Zhang,Zhongwei Wan,Duoqian Miao,Shoujin Wang,Lei Zhu,Changwei Wang,Rongtao Xu,Liang Hu,Ke Liu,Yu Zhang
発行日 2024-10-25 10:28:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV パーマリンク