要約
私たちの研究は、人間と同じように視覚的な動きを認識することを学習するマシンを開発することを目的としています。
コンピューター ビジョン (CV) の最近の進歩により、DNN ベースのモデルで自然な画像のオプティカル フローを正確に推定できるようになりましたが、CV モデルと生物学的視覚システムの間には、アーキテクチャと動作の両方において大きな差異が残っています。
この差異には、高次の画像特徴の動き (2 次の動き) を認識する人間の能力が含まれますが、多くの CV モデルは強度保存則に依存しているため、これを捉えることができません。
私たちのモデル アーキテクチャは、トレーニング可能な運動エネルギー センサー バンクとリカレント グラフ ネットワークを利用して、皮質 V1-MT 運動処理経路を模倣しています。
多様な自然主義的なビデオを使用した教師あり学習により、モデルは一次 (輝度ベース) 運動知覚に関する心理物理学的および生理学的発見を再現できます。
神経科学の発見にヒントを得た二次運動の場合、このモデルには、単純な多層 3D CNN ブロックを使用して実装された、運動エネルギー感知の前に非線形前処理を行う追加の感知経路が含まれています。
純粋な二次信号がまれである自然環境において、脳が二次運動を知覚する能力をどのように獲得したかを調査する際、私たちは、光の変動の中でのロバストな物体の運動を推定する際に、二次メカニズムが重要であるという仮説を立てました。
光沢のある表面。
私たちは、移動する物体のさまざまな材質特性を備えた新しいモーション データセットでデュアル パスウェイ モデルをトレーニングしました。
非ランバート材料から物体の動きを推定するトレーニングにより、人間と同様に 2 次の動きを認識する能力がモデルに自然に与えられることがわかりました。
結果として得られるモデルは、自然シーンにおける 1 次と 2 次の両方の運動現象を一般化しながら、生物学的システムと効果的に整合します。
要約(オリジナル)
Our research aims to develop machines that learn to perceive visual motion as do humans. While recent advances in computer vision (CV) have enabled DNN-based models to accurately estimate optical flow in naturalistic images, a significant disparity remains between CV models and the biological visual system in both architecture and behavior. This disparity includes humans’ ability to perceive the motion of higher-order image features (second-order motion), which many CV models fail to capture because of their reliance on the intensity conservation law. Our model architecture mimics the cortical V1-MT motion processing pathway, utilizing a trainable motion energy sensor bank and a recurrent graph network. Supervised learning employing diverse naturalistic videos allows the model to replicate psychophysical and physiological findings about first-order (luminance-based) motion perception. For second-order motion, inspired by neuroscientific findings, the model includes an additional sensing pathway with nonlinear preprocessing before motion energy sensing, implemented using a simple multilayer 3D CNN block. When exploring how the brain acquired the ability to perceive second-order motion in natural environments, in which pure second-order signals are rare, we hypothesized that second-order mechanisms were critical when estimating robust object motion amidst optical fluctuations, such as highlights on glossy surfaces. We trained our dual-pathway model on novel motion datasets with varying material properties of moving objects. We found that training to estimate object motion from non-Lambertian materials naturally endowed the model with the capacity to perceive second-order motion, as can humans. The resulting model effectively aligns with biological systems while generalizing to both first- and second-order motion phenomena in natural scenes.
arxiv情報
著者 | Zitang Sun,Yen-Ju Chen,Yung-Hao Yang,Yuan Li,Shin’ya Nishida |
発行日 | 2025-01-22 11:41:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google