Scaling 4D Representations


ただし、これまでの研究では、$\unicode{x2013}$ アクション分類、ImageNet 分類などの意味論関連タスクの評価に焦点を当てていました。この論文では、より空間的 (3D) な非意味論的視覚タスクに関する自己教師あり学習の評価に焦点を当てています。
) および時間的 (+1D = 4D) (カメラの姿勢推定、点とオブジェクトの追跡、深度推定など)。
非常に大規模なビデオ データセットから学習することで、トランスフォーマー ビデオ モデルを使用したマスク自動エンコーディング (MAE) が実際にスケーリングし、モデル サイズが 20M からこれまでに報告された最大の自己報告サイズまで増加するにつれて、これらの 4D タスクのパフォーマンスが一貫して向上することを示します。
教師ありビデオ モデル $\unicode{x2013}$ 22B パラメータ。
最近の多くの画像およびビデオ モデルとの厳密な比較により、4D 表現のスケーリングの利点が実証されています。


Scaling has not yet been convincingly demonstrated for pure self-supervised learning from video. However, prior work has focused evaluations on semantic-related tasks $\unicode{x2013}$ action classification, ImageNet classification, etc. In this paper we focus on evaluating self-supervised learning on non-semantic vision tasks that are more spatial (3D) and temporal (+1D = 4D), such as camera pose estimation, point and object tracking, and depth estimation. We show that by learning from very large video datasets, masked auto-encoding (MAE) with transformer video models actually scales, consistently improving performance on these 4D tasks, as model size increases from 20M all the way to the largest by far reported self-supervised video model $\unicode{x2013}$ 22B parameters. Rigorous apples-to-apples comparison with many recent image and video models demonstrates the benefits of scaling 4D representations.


著者 João Carreira,Dilara Gokay,Michael King,Chuhan Zhang,Ignacio Rocco,Aravindh Mahendran,Thomas Albert Keck,Joseph Heyward,Skanda Koppula,Etienne Pot,Goker Erdogan,Yana Hasson,Yi Yang,Klaus Greff,Guillaume Le Moing,Sjoerd van Steenkiste,Daniel Zoran,Drew A. Hudson,Pedro Vélez,Luisa Polanía,Luke Friedman,Chris Duvarney,Ross Goroshin,Kelsey Allen,Jacob Walker,Rishabh Kabra,Eric Aboussouan,Jennifer Sun,Thomas Kipf,Carl Doersch,Viorica Pătrăucean,Dima Damen,Pauline Luc,Mehdi S. M. Sajjadi,Andrew Zisserman
発行日 2024-12-19 18:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク