Masked Image Modeling as a Framework for Self-Supervised Learning across Eye Movements

要約

周囲の状況を理解するために、インテリジェント システムは、複雑な感覚入力を、オブジェクト カテゴリなどのタスク関連情報に還元される構造化コードに変換する必要があります。
生物学的エージェントは、おそらく自己\allowbreak超\allowbreakの学習を介して、ほぼ自律的な方法でこれを達成します。
根底にあるメカニズムをモデル化するこれまでの試みは本質的に差別的なものでしたが、脳が世界の生成モデルを採用していることを示す十分な証拠があります。
ここで我々は、眼球運動が霊長類の視覚の焦点を絞った性質と組み合わされて、視覚情報を予測し明らかにするという生成的で自己監視されたタスクを構成していることを提案する。
深層表現学習における一般的なアプローチであるマスク画像モデリング (MIM) のフレームワークから始めて原理証明モデルを構築します。
そのために、マスキング技術やデータ拡張などの MIM の中核コンポーネントがカテゴリ固有の表現の形成にどのような影響を与えるかを分析します。
これにより、MIM の背後にある原理をより深く理解できるだけでなく、生物学的知覚の焦点を絞った性質に合わせて MIM を再構築することができます。
理論的な角度から見ると、MIMは潜在空間のニューロンのもつれを解きほぐし、この特性は霊長類の視覚表現を構造化するために明示的な規制なしに示唆されている特性であることが判明した。
これまでの不変性学習の発見と合わせて、これは、自己教師あり学習のための潜在的な正則化アプローチと MIM の興味深い関係を強調しています。
ソース コードは https://github.com/RobinWeiler/FocusMIM で入手できます。

要約(オリジナル)

To make sense of their surroundings, intelligent systems must transform complex sensory inputs to structured codes that are reduced to task-relevant information such as object category. Biological agents achieve this in a largely autonomous manner, presumably via self-\allowbreak super-\allowbreak vised learning. Whereas previous attempts to model the underlying mechanisms were largely discriminative in nature, there is ample evidence that the brain employs a generative model of the world. Here, we propose that eye movements, in combination with the focused nature of primate vision, constitute a generative, self-supervised task of predicting and revealing visual information. We construct a proof-of-principle model starting from the framework of masked image modeling (MIM), a common approach in deep representation learning. To do so, we analyze how core components of MIM such as masking technique and data augmentation influence the formation of category-specific representations. This allows us not only to better understand the principles behind MIM, but to then reassemble a MIM more in line with the focused nature of biological perception. From a theoretical angle, we find that MIM disentangles neurons in latent space, a property that has been suggested to structure visual representations in primates, without explicit regulation. Together with previous findings of invariance learning, this highlights an interesting connection of MIM to latent regularization approaches for self-supervised learning. The source code is available under https://github.com/RobinWeiler/FocusMIM

arxiv情報

著者 Robin Weiler,Matthias Brucklacher,Cyriel M. A. Pennartz,Sander M. Bohté
発行日 2024-04-12 15:15:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク