Sequential Modeling Enables Scalable Learning for Large Vision Models

要約

我々は、言語データを利用することなくラージビジョンモデル(LVM)を学習できる、新しい逐次モデリングアプローチを紹介する。このために、我々は「視覚文」という共通のフォーマットを定義し、このフォーマットで生の画像や動画、また意味的セグメンテーションや深度再構成のような注釈付きデータソースを、画素以上のメタ知識を必要とせずに表現することができる。この多種多様な視覚データ(4,200億のトークンからなる)がシーケンスとして表現されると、次のトークン予測のためのクロスエントロピー損失を最小化するようにモデルを学習することができる。様々なスケールのモデルアーキテクチャとデータの多様性を訓練することで、我々のモデルが効果的にスケールすることを実証的に示す。多くの異なる視覚タスクは、テスト時に適切な視覚プロンプトを設計することで解決できる。

要約(オリジナル)

We introduce a novel sequential modeling approach which enables learning a Large Vision Model (LVM) without making use of any linguistic data. To do this, we define a common format, ‘visual sentences’, in which we can represent raw images and videos as well as annotated data sources such as semantic segmentations and depth reconstructions without needing any meta-knowledge beyond the pixels. Once this wide variety of visual data (comprising 420 billion tokens) is represented as sequences, the model can be trained to minimize a cross-entropy loss for next token prediction. By training across various scales of model architecture and data diversity, we provide empirical evidence that our models scale effectively. Many different vision tasks can be solved by designing suitable visual prompts at test time.

arxiv情報

著者 Yutong Bai,Xinyang Geng,Karttikeya Mangalam,Amir Bar,Alan Yuille,Trevor Darrell,Jitendra Malik,Alexei A Efros
発行日 2023-12-01 18:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク