要約
自己教師あり学習には、実世界の継続的な未キュレーションのデータ ストリームから適切な表現を学習できることが約束されています。
しかし、視覚的自己教師あり学習における既存の研究のほとんどは、静止画像または人工データ ストリームに焦点を当てています。
より現実的な学習基盤の探索に向けて、私たちは現実世界の自己中心的な長時間ビデオ ストリームからのストリーミング自己教師あり学習を調査します。
人間の知覚と記憶におけるイベントセグメンテーションメカニズムにインスピレーションを得て、私たちは、記憶再生のために過去の視覚ストリームをより効果的に要約するために、最近の過去のフレームを時間セグメントにグループ化する「メモリストーリーボード」を提案します。
効率的な時間セグメンテーションに対応するために、2 層のメモリ階層を提案します。最近の過去は短期記憶に保存され、ストーリーボードの時間セグメントは長期記憶に転送されます。
SAYCam や KrishnaCam などの現実世界の自己中心的なビデオ データセットでの実験では、ストーリーボード フレームの上に対照的な学習目標を設定すると、最先端の教師なし継続学習手法によって生成されるものよりも優れた意味的に意味のある表現が得られることが示されています。
要約(オリジナル)
Self-supervised learning holds the promise to learn good representations from real-world continuous uncurated data streams. However, most existing works in visual self-supervised learning focus on static images or artificial data streams. Towards exploring a more realistic learning substrate, we investigate streaming self-supervised learning from long-form real-world egocentric video streams. Inspired by the event segmentation mechanism in human perception and memory, we propose ‘Memory Storyboard’ that groups recent past frames into temporal segments for more effective summarization of the past visual streams for memory replay. To accommodate efficient temporal segmentation, we propose a two-tier memory hierarchy: the recent past is stored in a short-term memory, and the storyboard temporal segments are then transferred to a long-term memory. Experiments on real-world egocentric video datasets including SAYCam and KrishnaCam show that contrastive learning objectives on top of storyboard frames result in semantically meaningful representations which outperform those produced by state-of-the-art unsupervised continual learning methods.
arxiv情報
著者 | Yanlai Yang,Mengye Ren |
発行日 | 2025-01-21 16:19:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google