BIMM: Brain Inspired Masked Modeling for Video Representation Learning

要約

人間の脳の視覚経路には、腹側経路と背側経路という 2 つのサブ経路が含まれており、それぞれ物体の識別と動的情報モデリングに焦点を当てています。
どちらの経路も多層構造で構成されており、各層は視覚情報のさまざまな側面の処理を担当します。
人間の脳の視覚情報処理メカニズムにヒントを得て、ビデオから包括的な表現を学習することを目的とした Brain Inspired Masked Modeling (BIMM) フレームワークを提案します。
具体的には、私たちのアプローチは腹側枝と背側枝で構成され、それぞれ画像とビデオの表現を学習します。
どちらのブランチもバックボーンとして Vision Transformer (ViT) を採用し、マスクされたモデリング手法を使用してトレーニングされます。
脳のさまざまな視覚野の目標を達成するために、各ブランチのエンコーダーを 3 つの中間ブロックにセグメント化し、軽量デコーダーを使用してプログレッシブ予測ターゲットを再構築します。
さらに、視覚経路の情報共有メカニズムからインスピレーションを得て、トレーニング中のブランチ間の部分的なパラメーター共有戦略を提案します。
広範な実験により、BIMM が最先端の方法と比較して優れたパフォーマンスを達成できることが実証されています。

要約(オリジナル)

The visual pathway of human brain includes two sub-pathways, ie, the ventral pathway and the dorsal pathway, which focus on object identification and dynamic information modeling, respectively. Both pathways comprise multi-layer structures, with each layer responsible for processing different aspects of visual information. Inspired by visual information processing mechanism of the human brain, we propose the Brain Inspired Masked Modeling (BIMM) framework, aiming to learn comprehensive representations from videos. Specifically, our approach consists of ventral and dorsal branches, which learn image and video representations, respectively. Both branches employ the Vision Transformer (ViT) as their backbone and are trained using masked modeling method. To achieve the goals of different visual cortices in the brain, we segment the encoder of each branch into three intermediate blocks and reconstruct progressive prediction targets with light weight decoders. Furthermore, drawing inspiration from the information-sharing mechanism in the visual pathways, we propose a partial parameter sharing strategy between the branches during training. Extensive experiments demonstrate that BIMM achieves superior performance compared to the state-of-the-art methods.

arxiv情報

著者 Zhifan Wan,Jie Zhang,Changzhen Li,Shiguang Shan
発行日 2024-05-21 13:09:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク