Data-efficient Large Vision Models through Sequential Autoregression

要約

言語入力を避け、純粋に逐次的な視覚データに基づいて汎用視覚モデルをトレーニングすることで、視覚理解の新たなフロンティアが到来しました。
これらのモデルは、ドメイン外のタスクを理解するだけでなく、シームレスに移行することも目的としています。
しかし、現在の取り組みは、3B を超えるパラメータを持つモデルに代表される巨大なモデルへの過度の依存と、驚異的な 400B トークンを含む広範な視覚データのコーパスの必要性によって妨げられています。
このペーパーでは、限られたデータセットで動作するように革新的に設計された、効率的な自己回帰ベースのビジョン モデルの開発について詳しく説明します。
私たちは、このモデルがテスト段階で高レベルと低レベルの両方の意味理解に及ぶさまざまな視覚的タスクの習熟度をどのように達成するかを綿密に実証します。
私たちの経験的評価は、さまざまなタスクに適応するモデルの機敏性を強調し、パラメーターのフットプリントの大幅な削減とトレーニング データの要件の顕著な減少を予告し、それによってジェネラリスト ビジョン モデルの分野におけるより持続可能でアクセスしやすい進歩への道を切り開きます。
コードは https://github.com/ggjy/DeLVM で入手できます。

要約(オリジナル)

Training general-purpose vision models on purely sequential visual data, eschewing linguistic inputs, has heralded a new frontier in visual understanding. These models are intended to not only comprehend but also seamlessly transit to out-of-domain tasks. However, current endeavors are hamstrung by an over-reliance on colossal models, exemplified by models with upwards of 3B parameters, and the necessity for an extensive corpus of visual data, often comprising a staggering 400B tokens. In this paper, we delve into the development of an efficient, autoregression-based vision model, innovatively architected to operate on a limited dataset. We meticulously demonstrate how this model achieves proficiency in a spectrum of visual tasks spanning both high-level and low-level semantic understanding during the testing phase. Our empirical evaluations underscore the model’s agility in adapting to various tasks, heralding a significant reduction in the parameter footprint, and a marked decrease in training data requirements, thereby paving the way for more sustainable and accessible advancements in the field of generalist vision models. The code is available at https://github.com/ggjy/DeLVM.

arxiv情報

著者 Jianyuan Guo,Zhiwei Hao,Chengcheng Wang,Yehui Tang,Han Wu,Han Hu,Kai Han,Chang Xu
発行日 2024-02-07 13:41:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク