要約
コンピューター ビジョン モデルは、静的画像認識において驚くべき進歩を遂げましたが、複雑で動的な動きの理解を必要とするタスクでは依然として人間のパフォーマンスには及びません。
これは、具体化されたエージェントが複雑で動きの多い環境に直面する現実世界のシナリオに特に当てはまります。
私たちのアプローチは、最先端のビデオ拡散モデルを活用して、静止画像表現を動きの生成から切り離し、fMRI の脳活動を利用して、動的な視覚刺激に対する人間の反応をより深く理解できるようにします。
逆に、脳の動きの表現に関する情報が人工システムにおけるオプティカル フローの予測を強化できることも実証します。
私たちの新しいアプローチは、4 つの主要な発見につながります。(1) 視覚的な動きは、きめの細かいオブジェクトレベルの解像度のオプティカル フローとして表され、ビデオ刺激を視聴している参加者によって生成される脳活動からデコードできます。
(2) ビデオエンコーダは、ビデオによる脳活動の予測において画像ベースのモデルよりも優れています。
(3) 脳デコードされたモーション信号により、ビデオの最初のフレームのみに基づいてリアルなビデオの蘇生が可能になります。
(4) 以前の研究を拡張して、ビデオ主導の脳活動から完全なビデオのデコードを実現します。
このフレームワークは、脳が動的な視覚シーンにおいて空間的および時間的情報をどのように表現するかについての理解を深めます。
私たちの発見は、より堅牢で生物学にインスピレーションを得たコンピュータービジョンシステムを開発するために、脳イメージングとビデオ拡散モデルを組み合わせる可能性を示しています。
このサイト https://sites.google.com/view/neural-dynamics/home で追加のデコードとエンコードの例を示します。
要約(オリジナル)
While computer vision models have made incredible strides in static image recognition, they still do not match human performance in tasks that require the understanding of complex, dynamic motion. This is notably true for real-world scenarios where embodied agents face complex and motion-rich environments. Our approach leverages state-of-the-art video diffusion models to decouple static image representation from motion generation, enabling us to utilize fMRI brain activity for a deeper understanding of human responses to dynamic visual stimuli. Conversely, we also demonstrate that information about the brain’s representation of motion can enhance the prediction of optical flow in artificial systems. Our novel approach leads to four main findings: (1) Visual motion, represented as fine-grained, object-level resolution optical flow, can be decoded from brain activity generated by participants viewing video stimuli; (2) Video encoders outperform image-based models in predicting video-driven brain activity; (3) Brain-decoded motion signals enable realistic video reanimation based only on the initial frame of the video; and (4) We extend prior work to achieve full video decoding from video-driven brain activity. This framework advances our understanding of how the brain represents spatial and temporal information in dynamic visual scenes. Our findings demonstrate the potential of combining brain imaging with video diffusion models for developing more robust and biologically-inspired computer vision systems. We show additional decoding and encoding examples on this site: https://sites.google.com/view/neural-dynamics/home.
arxiv情報
著者 | Jacob Yeung,Andrew F. Luo,Gabriel Sarch,Margaret M. Henderson,Deva Ramanan,Michael J. Tarr |
発行日 | 2024-11-29 18:59:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google