Visual Representation Learning with Stochastic Frame Prediction

要約

将来のフレームを予測することによる画像表現の自己教師あり学習は有望な方向性ですが、依然として課題が残っています。
これは、フレーム予測の決定が不十分であるためです。
単一の現在のフレームから複数の潜在的な将来が生じる可能性があります。
この課題に取り組むために、この論文では、フレーム予測の不確実性を捉えることを学習する確率的ビデオ生成のアイデアを再検討し、表現学習におけるその有効性を探ります。
具体的には、確率的フレーム予測モデルをトレーニングしてフレーム間の時間情報を学習するフレームワークを設計します。
さらに、各フレーム内の高密度の情報を学習するために、共有デコーダ アーキテクチャとともに補助的なマスクされた画像モデリング目標を導入します。
このアーキテクチャにより、両方の目的を相乗的かつ計算効率の高い方法で組み合わせることができることがわかりました。
ビデオラベルの伝播や、ビデオセグメンテーション、姿勢追跡、ビジョンベースのロボット移動、操作タスクなどのビジョンベースのロボット学習ドメインからのさまざまなタスクに対するフレームワークの有効性を実証します。
コードはプロジェクトの Web ページ (https://sites.google.com/view/2024rsp) で入手できます。

要約(オリジナル)

Self-supervised learning of image representations by predicting future frames is a promising direction but still remains a challenge. This is because of the under-determined nature of frame prediction; multiple potential futures can arise from a single current frame. To tackle this challenge, in this paper, we revisit the idea of stochastic video generation that learns to capture uncertainty in frame prediction and explore its effectiveness for representation learning. Specifically, we design a framework that trains a stochastic frame prediction model to learn temporal information between frames. Moreover, to learn dense information within each frame, we introduce an auxiliary masked image modeling objective along with a shared decoder architecture. We find this architecture allows for combining both objectives in a synergistic and compute-efficient manner. We demonstrate the effectiveness of our framework on a variety of tasks from video label propagation and vision-based robot learning domains, such as video segmentation, pose tracking, vision-based robotic locomotion, and manipulation tasks. Code is available on the project webpage: https://sites.google.com/view/2024rsp.

arxiv情報

著者 Huiwon Jang,Dongyoung Kim,Junsu Kim,Jinwoo Shin,Pieter Abbeel,Younggyo Seo
発行日 2024-06-11 16:05:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク