要約
視覚表現の自己教師あり学習は、オブジェクトの動きや位置を捕捉せず、画像やビデオ内のオブジェクトを識別して区別することに重点を置いたコンテンツの特徴の学習に焦点を当ててきました。
一方、オプティカルフロー推定は、推定対象となる画像の内容を理解する必要のないタスクです。
我々は 2 つのアプローチを統合し、共有エンコーダ内でオプティカル フローとコンテンツの特徴を共同で学習するための共同埋め込み予測アーキテクチャおよび自己教師あり学習アプローチである MC-JEPA を導入します。これは、2 つの関連する目的が実証されています。
オプティカル フロー推定の目的と自己教師あり学習の目的。
相互に利益を得ることで、モーション情報を組み込んだコンテンツの特徴を学習します。
提案されたアプローチは、既存の教師なしオプティカル フロー ベンチマークや、画像やビデオのセマンティック セグメンテーションなどの下流タスクに対する一般的な自己教師あり学習アプローチと同等のパフォーマンスを達成します。
要約(オリジナル)
Self-supervised learning of visual representations has been focusing on learning content features, which do not capture object motion or location, and focus on identifying and differentiating objects in images and videos. On the other hand, optical flow estimation is a task that does not involve understanding the content of the images on which it is estimated. We unify the two approaches and introduce MC-JEPA, a joint-embedding predictive architecture and self-supervised learning approach to jointly learn optical flow and content features within a shared encoder, demonstrating that the two associated objectives; the optical flow estimation objective and the self-supervised learning objective; benefit from each other and thus learn content features that incorporate motion information. The proposed approach achieves performance on-par with existing unsupervised optical flow benchmarks, as well as with common self-supervised learning approaches on downstream tasks such as semantic segmentation of images and videos.
arxiv情報
著者 | Adrien Bardes,Jean Ponce,Yann LeCun |
発行日 | 2023-07-24 11:27:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google