Reanimating Images using Neural Representations of Dynamic Stimuli

要約

コンピュータービジョンモデルは静的な画像認識で信じられないほどの進歩を遂げましたが、複雑で動的な動きの理解を必要とするタスクでの人間のパフォーマンスと依然として一致していません。
これは、具体化されたエージェントが複雑でモーションが豊富な環境に直面している実際のシナリオに特に当てはまります。
私たちのアプローチ、脳の脳(動的刺激の脳ネオラル表現)は、最先端のビデオ拡散モデルを活用して、動きの生成から静的画像表現を切り離し、動的視覚刺激に対する人間の反応のより深い理解のためにfMRI脳活動を利用できるようにします。
逆に、脳の運動表現に関する情報が人工システムにおける光学流の予測を強化できることも示しています。
私たちの斬新なアプローチは、4つの主要な発見につながります。(1)微調整されたオブジェクトレベルの解像度の光学フローとして表される視覚運動は、ビデオ刺激を見る参加者によって生成された脳活動から解読できます。
(2)ビデオエンコーダーは、ビデオ駆動型の脳活動を予測する際に画像ベースのモデルを上回る。
(3)脳で設定されたモーションシグナルは、ビデオの初期フレームにのみ基づいて現実的なビデオ蘇生を可能にします。
(4)ビデオ主導の脳活動から完全なビデオデコードを達成するために、以前の作業を延長します。
Brainnrdsは、脳が動的な視覚シーンで空間的および時間的情報をどのように表すかについての理解を進めます。
私たちの調査結果は、より堅牢で生物学的にインスパイアされたコンピュータービジョンシステムを開発するための脳イメージングとビデオ拡散モデルを組み合わせる可能性を示しています。
このサイトで追加のデコードとエンコードの例を示します:https://brain-nrds.github.io/。

要約(オリジナル)

While computer vision models have made incredible strides in static image recognition, they still do not match human performance in tasks that require the understanding of complex, dynamic motion. This is notably true for real-world scenarios where embodied agents face complex and motion-rich environments. Our approach, BrainNRDS (Brain-Neural Representations of Dynamic Stimuli), leverages state-of-the-art video diffusion models to decouple static image representation from motion generation, enabling us to utilize fMRI brain activity for a deeper understanding of human responses to dynamic visual stimuli. Conversely, we also demonstrate that information about the brain’s representation of motion can enhance the prediction of optical flow in artificial systems. Our novel approach leads to four main findings: (1) Visual motion, represented as fine-grained, object-level resolution optical flow, can be decoded from brain activity generated by participants viewing video stimuli; (2) Video encoders outperform image-based models in predicting video-driven brain activity; (3) Brain-decoded motion signals enable realistic video reanimation based only on the initial frame of the video; and (4) We extend prior work to achieve full video decoding from video-driven brain activity. BrainNRDS advances our understanding of how the brain represents spatial and temporal information in dynamic visual scenes. Our findings demonstrate the potential of combining brain imaging with video diffusion models for developing more robust and biologically-inspired computer vision systems. We show additional decoding and encoding examples on this site: https://brain-nrds.github.io/.

arxiv情報

著者 Jacob Yeung,Andrew F. Luo,Gabriel Sarch,Margaret M. Henderson,Deva Ramanan,Michael J. Tarr
発行日 2025-03-25 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, q-bio.NC パーマリンク