What can generic neural networks learn from a child’s visual experience?

要約

幼い子供たちは、自己中心的な視覚経験に基づいて、世界の洗練された内部モデルを構築します。
このうちのどのくらいが生来の制約によって左右され、どのくらいが経験によって左右されるのでしょうか?
これらの疑問を調査するために、明示的な監視や領域固有の誘導バイアスを一切使用せずに、子供の視覚体験の現実的なプロキシで最先端のニューラル ネットワークをトレーニングします。
具体的には、2 年間にわたって収集された 1 人の子供からの 200 時間のヘッドカメラ ビデオを使用して、埋め込みモデルと生成モデルの両方をトレーニングします。
私たちは合計 72 の異なるモデルをトレーニングし、さまざまなモデル アーキテクチャと自己教師あり学習アルゴリズムを調査し、下流タスクでのパフォーマンスを包括的に評価します。
最高の埋め込みモデルは、平均して、高パフォーマンスの ImageNet でトレーニングされたモデルの 70% のパフォーマンスを発揮します。
また、ラベル付けされた例なしで広範な意味カテゴリを学習し、位置監視なしで画像内の意味カテゴリをローカライズすることも学習します。
ただし、これらのモデルは、同等の ImageNet でトレーニングされたモデルよりもオブジェクト中心ではなく、背景の影響を受けやすくなっています。
同じデータを使用してトレーニングされた生成モデルは、部分的にマスクされたオブジェクトのテクスチャ、色、向き、大まかな輪郭などの単純なプロパティを正常に外挿しますが、オブジェクトのより詳細な部分では苦労します。
他の 2 人の子供たちにも実験を再現したところ、非常に似た結果が得られました。
したがって、広く有用な高レベルの視覚表現は、強い帰納的バイアスなしに、子供の視覚体験の代表的なサンプルから確実に学習可能です。

要約(オリジナル)

Young children develop sophisticated internal models of the world based on their egocentric visual experience. How much of this is driven by innate constraints and how much is driven by their experience? To investigate these questions, we train state-of-the-art neural networks on a realistic proxy of a child’s visual experience without any explicit supervision or domain-specific inductive biases. Specifically, we train both embedding models and generative models on 200 hours of headcam video from a single child collected over two years. We train a total of 72 different models, exploring a range of model architectures and self-supervised learning algorithms, and comprehensively evaluate their performance in downstream tasks. The best embedding models perform at 70% of a highly performant ImageNet-trained model on average. They also learn broad semantic categories without any labeled examples and learn to localize semantic categories in an image without any location supervision. However, these models are less object-centric and more background-sensitive than comparable ImageNet-trained models. Generative models trained with the same data successfully extrapolate simple properties of partially masked objects, such as their texture, color, orientation, and rough outline, but struggle with finer object details. We replicate our experiments with two other children and find very similar results. Broadly useful high-level visual representations are thus robustly learnable from a representative sample of a child’s visual experience without strong inductive biases.

arxiv情報

著者 A. Emin Orhan,Brenden M. Lake
発行日 2023-05-24 17:26:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NE, q-bio.NC パーマリンク