Learning high-level visual representations from a child’s perspective without strong inductive biases

要約

幼い子供たちは、視覚経験に基づいて世界の洗練された内部モデルを開発します。
このようなモデルは、強い帰納的バイアスなしに子供の視覚経験から学習できるでしょうか?
これを調査するために、明示的な監視やドメイン固有の誘導バイアスを一切使用せずに、子供の視覚体験の現実的なプロキシで最先端のニューラル ネットワークをトレーニングします。
具体的には、2 年間にわたって収集された 1 人の子供から収集された 200 時間のヘッドカムビデオで埋め込みモデルと生成モデルの両方をトレーニングし、さまざまな参照モデルを基準として使用して、下流のタスクにおけるパフォーマンスを包括的に評価します。
平均して、最良の埋め込みモデルは、トレーニング データに大きな違いがあるにもかかわらず、ImageNet でトレーニングされた高性能モデルの 70% のパフォーマンスを発揮します。
また、明示的な監視なしで広範なセマンティック カテゴリとオブジェクト位置特定機能も学習しますが、ImageNet 全体でトレーニングされたモデルほどオブジェクト中心ではありません。
同じデータを使用してトレーニングされた生成モデルは、大まかな輪郭、テクスチャ、色、方向など、部分的にマスクされたオブジェクトの単純なプロパティを正常に外挿しますが、オブジェクトのより詳細な部分では苦労します。
他の 2 人の子供たちにも実験を繰り返したところ、驚くほど一貫した結果が得られました。
したがって、広く有用な高レベルの視覚表現は、強い帰納的バイアスなしに、子供の視覚体験の代表的なサンプルから確実に学習可能です。

要約(オリジナル)

Young children develop sophisticated internal models of the world based on their visual experience. Can such models be learned from a child’s visual experience without strong inductive biases? To investigate this, we train state-of-the-art neural networks on a realistic proxy of a child’s visual experience without any explicit supervision or domain-specific inductive biases. Specifically, we train both embedding models and generative models on 200 hours of headcam video from a single child collected over two years and comprehensively evaluate their performance in downstream tasks using various reference models as yardsticks. On average, the best embedding models perform at a respectable 70% of a high-performance ImageNet-trained model, despite substantial differences in training data. They also learn broad semantic categories and object localization capabilities without explicit supervision, but they are less object-centric than models trained on all of ImageNet. Generative models trained with the same data successfully extrapolate simple properties of partially masked objects, like their rough outline, texture, color, or orientation, but struggle with finer object details. We replicate our experiments with two other children and find remarkably consistent results. Broadly useful high-level visual representations are thus robustly learnable from a representative sample of a child’s visual experience without strong inductive biases.

arxiv情報

著者 A. Emin Orhan,Brenden M. Lake
発行日 2023-09-22 17:41:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NE, q-bio.NC パーマリンク