要約
生物学的運動知覚 (BMP) とは、生物の動作をその動作パターンのみから認識し、認識する人間の能力を指します。その動作パターンは、場合によっては点光源ディスプレイに表示されるものと同じくらい最小限です。
人間は事前のトレーニングなしでこれらのタスクに優れていますが、現在の AI モデルは汎化パフォーマンスが低いという問題に苦しんでいます。
この研究ギャップを埋めるために、私たちはモーション パーシーバー (MP) を提案します。
MP は、入力としてビデオ クリップからのパッチレベルのオプティカル フローのみに依存します。
トレーニング中に、競合バインディング メカニズムを通じてプロトタイプのフロー スナップショットを学習し、不変のモーション表現を統合して、特定のビデオのアクション ラベルを予測します。
推論中、神経科学のポイントライトディスプレイを使用して、24のBMP条件にわたる62,656のビデオ刺激に対するすべてのAIモデルと人間の汎化能力を評価します。
驚くべきことに、MP は、これらの条件下でトップ 1 のアクション認識精度が最大 29% 向上し、既存のすべての AI モデルを上回っています。
さらに、コンピューター ビジョンの 2 つの標準ビデオ データセットのポイントライト ディスプレイですべての AI モデルのベンチマークを実行します。
MP はこのような場合にも優れたパフォーマンスを発揮します。
さらに興味深いことに、精神物理学の実験により、MP は人間の行動と一致する方法で生物学的な動きを認識することがわかりました。
データとコードは https://github.com/ZhangLab-DeepNeuroCogLab/MotionPerceiver で入手できます。
要約(オリジナル)
Biological motion perception (BMP) refers to humans’ ability to perceive and recognize the actions of living beings solely from their motion patterns, sometimes as minimal as those depicted on point-light displays. While humans excel at these tasks without any prior training, current AI models struggle with poor generalization performance. To close this research gap, we propose the Motion Perceiver (MP). MP solely relies on patch-level optical flows from video clips as inputs. During training, it learns prototypical flow snapshots through a competitive binding mechanism and integrates invariant motion representations to predict action labels for the given video. During inference, we evaluate the generalization ability of all AI models and humans on 62,656 video stimuli spanning 24 BMP conditions using point-light displays in neuroscience. Remarkably, MP outperforms all existing AI models with a maximum improvement of 29% in top-1 action recognition accuracy on these conditions. Moreover, we benchmark all AI models in point-light displays of two standard video datasets in computer vision. MP also demonstrates superior performance in these cases. More interestingly, via psychophysics experiments, we found that MP recognizes biological movements in a way that aligns with human behaviors. Our data and code are available at https://github.com/ZhangLab-DeepNeuroCogLab/MotionPerceiver.
arxiv情報
著者 | Shuangpeng Han,Ziyu Wang,Mengmi Zhang |
発行日 | 2024-10-30 16:58:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google