要約
我々は、人間や動物が学習するように、ミニバッチ、データ増大、シャッフリングなしに、単一の連続ビデオストリームからオンライン学習するフレームワークを紹介する。連続するビデオフレーム間の相関が高いことを考えると、これは大きな挑戦であり、これに関する先行研究はほとんどない。我々のフレームワークは、このトピックを初めて深く掘り下げることを可能にし、2つの既存のビデオデータセットから構成されたストリームとタスクのコレクション、さらに適応と汎化の両方を考慮した性能評価のための方法論を含む。モデルの変更を必要とせず、常に同じピクセル損失を使用することで、事前学習と単一ストリーム評価、また任意のタスク間を切り替える実用的で柔軟な方法として、ピクセル間モデリングを採用する。このフレームワークを用いて、新しい未来予測タスクの事前学習から大きなシングルストリーム学習利得を得るとともに、勢いが重要であること、重み更新のペースが重要であることを発見した。これらの洞察を組み合わせることで、同じアーキテクチャを使用し、コストのかかるリプレイバッファを使用しない場合、バッチサイズ1のIID学習の性能に匹敵する。
要約(オリジナル)
We introduce a framework for online learning from a single continuous video stream — the way people and animals learn, without mini-batches, data augmentation or shuffling. This poses great challenges given the high correlation between consecutive video frames and there is very little prior work on it. Our framework allows us to do a first deep dive into the topic and includes a collection of streams and tasks composed from two existing video datasets, plus methodology for performance evaluation that considers both adaptation and generalization. We employ pixel-to-pixel modelling as a practical and flexible way to switch between pre-training and single-stream evaluation as well as between arbitrary tasks, without ever requiring changes to models and always using the same pixel loss. Equipped with this framework we obtained large single-stream learning gains from pre-training with a novel family of future prediction tasks, found that momentum hurts, and that the pace of weight updates matters. The combination of these insights leads to matching the performance of IID learning with batch size 1, when using the same architecture and without costly replay buffers.
arxiv情報
著者 | João Carreira,Michael King,Viorica Pătrăucean,Dilara Gokay,Cătălin Ionescu,Yi Yang,Daniel Zoran,Joseph Heyward,Carl Doersch,Yusuf Aytar,Dima Damen,Andrew Zisserman |
発行日 | 2023-12-01 14:03:30+00:00 |
arxivサイト | arxiv_id(pdf) |