Self-supervised learning of video representations from a child’s perspective

要約

子どもたちは、数年間の自己中心的な視覚経験から、周囲の世界の強力な内部モデルを学びます。
このような内部モデルは、非常に汎用的な学習アルゴリズムを使用して子供の視覚体験から学習できるのでしょうか、それとも強い帰納的バイアスが必要なのでしょうか?
大規模で縦断的、発達的に現実的なビデオ データセットの収集における最近の進歩と、一般的な自己教師あり学習 (SSL) アルゴリズムにより、この性質と育成の問題に取り組み始めることが可能になりました。
しかし、既存の研究は通常、画像ベースの SSL アルゴリズムと、静止画像から学習できる視覚機能 (オブジェクト認識など) に焦点を当てており、世界の時間的側面を無視しています。
このギャップを埋めるために、ここでは、発達初期(6~31か月)の2年間にわたって子供から収集された縦方向の自己中心的なヘッドカメラ記録を使用して自己教師付きビデオモデルをトレーニングします。
結果として得られるモデルは、少数のラベル付き例からアクションの概念を学習するのに非常に効果的です。
それらは有利なデータサイズスケーリング特性を持っています。
また、新しいビデオ補間機能も表示されます。
ビデオ モデルは、まったく同じデータでトレーニングされた画像ベースのモデルよりも、より堅牢なオブジェクト表現も学習します。
これらの結果は、子どもの世界の内部モデルの重要な時間的側面が、非常に汎用的な学習アルゴリズムを使用し、強い帰納的バイアスなしで視覚経験から学習できる可能性があることを示唆しています。

要約(オリジナル)

Children learn powerful internal models of the world around them from a few years of egocentric visual experience. Can such internal models be learned from a child’s visual experience with highly generic learning algorithms or do they require strong inductive biases? Recent advances in collecting large-scale, longitudinal, developmentally realistic video datasets and generic self-supervised learning (SSL) algorithms are allowing us to begin to tackle this nature vs. nurture question. However, existing work typically focuses on image-based SSL algorithms and visual capabilities that can be learned from static images (e.g. object recognition), thus ignoring temporal aspects of the world. To close this gap, here we train self-supervised video models on longitudinal, egocentric headcam recordings collected from a child over a two year period in their early development (6-31 months). The resulting models are highly effective at facilitating the learning of action concepts from a small number of labeled examples; they have favorable data size scaling properties; and they display emergent video interpolation capabilities. Video models also learn more robust object representations than image-based models trained with the exact same data. These results suggest that important temporal aspects of a child’s internal model of the world may be learnable from their visual experience using highly generic learning algorithms and without strong inductive biases.

arxiv情報

著者 A. Emin Orhan,Wentao Wang,Alex N. Wang,Mengye Ren,Brenden M. Lake
発行日 2024-07-25 14:48:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NE, q-bio.NC パーマリンク