An Empirical Study of Autoregressive Pre-training from Videos

要約

私たちはビデオからの自己回帰事前トレーニングを実証的に研究しています。
研究を実行するために、Toto と呼ばれる一連の自己回帰ビデオ モデルを構築します。
私たちはビデオを視覚的なトークンのシーケンスとして扱い、トランスフォーマー モデルをトレーニングして将来のトークンを自己回帰的に予測します。
私たちのモデルは、1 兆を超えるビジュアル トークンで構成されるビデオと画像の多様なデータセットで事前トレーニングされています。
さまざまなアーキテクチャ、トレーニング、推論設計の選択肢を検討します。
画像認識、ビデオ分類、物体追跡、ロボット工学など、さまざまな下流タスクで学習した視覚表現を評価します。
私たちの結果は、最小限の帰納的バイアスにもかかわらず、自己回帰事前トレーニングがすべてのベンチマークにわたって競争力のあるパフォーマンスにつながることを示しています。
最後に、ビデオ モデルをスケーリングすると、レートは異なるものの、言語モデルで見られるスケーリング曲線と同様のスケーリング曲線が得られることがわかりました。
詳細については、https://brjathu.github.io/toto/ をご覧ください。

要約(オリジナル)

We empirically study autoregressive pre-training from videos. To perform our study, we construct a series of autoregressive video models, called Toto. We treat videos as sequences of visual tokens and train transformer models to autoregressively predict future tokens. Our models are pre-trained on a diverse dataset of videos and images comprising over 1 trillion visual tokens. We explore different architectural, training, and inference design choices. We evaluate the learned visual representations on a range of downstream tasks including image recognition, video classification, object tracking, and robotics. Our results demonstrate that, despite minimal inductive biases, autoregressive pre-training leads to competitive performance across all benchmarks. Finally, we find that scaling our video models results in similar scaling curves to those seen in language models, albeit with a different rate. More details at https://brjathu.github.io/toto/

arxiv情報

著者 Jathushan Rajasegaran,Ilija Radosavovic,Rahul Ravishankar,Yossi Gandelsman,Christoph Feichtenhofer,Jitendra Malik
発行日 2025-01-09 18:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク