Self-Supervised Learning Through Efference Copies

要約

自己教師あり学習 (SSL) メソッドは、大量のラベルなしデータを機械学習 (ML) に活用することを目的としていますが、基本的な原則は多くの場合メソッド固有です。
身体化された学習の生物学的第一原理から派生した SSL フレームワークは、さまざまな SSL メソッドを統合し、脳内の学習を解明するのに役立ち、ML を改善する可能性があります。
SSL は通常、各トレーニング データポイントを 1 組のビューに変換し、このペアリングの知識を肯定的な (つまり、対照的ではない) 自己監視サインとして使用し、関係のない (つまり、対照的な) 否定的な例に対抗する可能性があります。
ここでは、このタイプの自己監督が、神経科学の概念であるエファレンス コピー (EC) の不完全な実装であることを示します。
具体的には、脳は遠心力、つまり運動コマンドを通じて環境を変換しますが、完全なコマンドの EC を自分自身に送信します。つまり、単なる SSL サイン以上のものです。
さらに、その行動表現は自己中心的である可能性があります。
このような原則に基づいた基盤から、SimCLR、BYOL、ReLIC などの SSL メソッドを、共通の理論的フレームワーク、つまり Efference Copies による自己監視 (S-TEC) の下で正式に回復および拡張します。
経験的に、S-TEC はクラス内およびクラス間の表現を意味のある形で再構築します。
これは、画像分類、セグメンテーション、オブジェクト検出、および音声における最近の強力な SSL ベースラインの改善として現れます。
これらの結果は、脳の運動出力からその感覚表現へのテスト可能な肯定的な影響を仮定しています。

要約(オリジナル)

Self-supervised learning (SSL) methods aim to exploit the abundance of unlabelled data for machine learning (ML), however the underlying principles are often method-specific. An SSL framework derived from biological first principles of embodied learning could unify the various SSL methods, help elucidate learning in the brain, and possibly improve ML. SSL commonly transforms each training datapoint into a pair of views, uses the knowledge of this pairing as a positive (i.e. non-contrastive) self-supervisory sign, and potentially opposes it to unrelated, (i.e. contrastive) negative examples. Here, we show that this type of self-supervision is an incomplete implementation of a concept from neuroscience, the Efference Copy (EC). Specifically, the brain also transforms the environment through efference, i.e. motor commands, however it sends to itself an EC of the full commands, i.e. more than a mere SSL sign. In addition, its action representations are likely egocentric. From such a principled foundation we formally recover and extend SSL methods such as SimCLR, BYOL, and ReLIC under a common theoretical framework, i.e. Self-supervision Through Efference Copies (S-TEC). Empirically, S-TEC restructures meaningfully the within- and between-class representations. This manifests as improvement in recent strong SSL baselines in image classification, segmentation, object detection, and in audio. These results hypothesize a testable positive influence from the brain’s motor outputs onto its sensory representations.

arxiv情報

著者 Franz Scherr,Qinghai Guo,Timoleon Moraitis
発行日 2023-01-24 15:46:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NE, q-bio.NC パーマリンク