Are Vision Transformers More Data Hungry Than Newborn Visual Systems?

要約

ビジョン トランスフォーマー (ViT) は、多くのコンピューター ビジョン ベンチマークで最高のパフォーマンスを発揮するモデルであり、物体認識タスクにおける人間の行動を正確に予測できます。
しかし、研究者らは、ViT を生物学的学習のモデルとして使用する価値に疑問を抱いています。ViT は脳よりもデータを大量に消費すると考えられており、ViT が同様のレベルのパフォーマンスに達するにはより多くのトレーニング データを必要とします。
この仮説を検証するために、ViT と生まれたばかりの雛に対して並行制御飼育実験を行うことにより、ViT と動物の学習能力を直接比較しました。
私たちはまず、単一の物体を含む劣悪な視覚環境でひよこを育て、次にビデオ ゲーム エンジンに仮想動物室を構築することで、それらの環境で利用可能な訓練データをシミュレートしました。
私たちは、仮想チャンバー内を移動するエージェントによって取得された一人称画像を記録し、それらの画像を使用して、生物学的な視覚システムに似た、時間を教育信号として活用する自己監視型 ViT をトレーニングしました。
ViT が生まれたばかりのヒヨコの目を通して訓練された場合、ViT はヒヨコと同じビュー不変オブジェクト認識タスクを解決しました。
したがって、ViT は生まれたばかりの視覚システムほどデータを必要としませんでした。どちらも、貧しい視覚環境でビューの不変オブジェクト表現を学習しました。
ViT の柔軟で汎用的な注意ベースの学習メカニズムと、生まれたばかりの動物が利用できる身体化されたデータ ストリームを組み合わせることで、動物のような物体認識の開発を促進するのに十分であると考えられます。

要約(オリジナル)

Vision transformers (ViTs) are top performing models on many computer vision benchmarks and can accurately predict human behavior on object recognition tasks. However, researchers question the value of using ViTs as models of biological learning because ViTs are thought to be more data hungry than brains, with ViTs requiring more training data to reach similar levels of performance. To test this assumption, we directly compared the learning abilities of ViTs and animals, by performing parallel controlled rearing experiments on ViTs and newborn chicks. We first raised chicks in impoverished visual environments containing a single object, then simulated the training data available in those environments by building virtual animal chambers in a video game engine. We recorded the first-person images acquired by agents moving through the virtual chambers and used those images to train self supervised ViTs that leverage time as a teaching signal, akin to biological visual systems. When ViTs were trained through the eyes of newborn chicks, the ViTs solved the same view invariant object recognition tasks as the chicks. Thus, ViTs were not more data hungry than newborn visual systems: both learned view invariant object representations in impoverished visual environments. The flexible and generic attention based learning mechanism in ViTs combined with the embodied data streams available to newborn animals appears sufficient to drive the development of animal-like object recognition.

arxiv情報

著者 Lalit Pandey,Samantha M. W. Wood,Justin N. Wood
発行日 2023-12-05 15:53:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NE パーマリンク