Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective

要約

大規模言語モデル (LLM) の自己回帰は、すべての言語タスクを次のトークン予測パラダイムに統合することにより、優れたスケーラビリティを示しました。
最近では、この成功をビジョン基盤モデルにも拡張することに関心が高まっています。
この調査では、最近の進歩をレビューし、自己回帰視覚基盤モデルの将来の方向性について議論します。
まず、次世代のビジョン基盤モデル、つまりビジョンタスクにおける理解と生成の両方を統合するトレンドを示します。
次に、既存のビジョン基盤モデルの限界を分析し、自己回帰の正式な定義とその利点を示します。
その後、自己回帰ビジョン基盤モデルを、ビジョン トークナイザーと自己回帰バックボーンから分類します。
最後に、いくつかの有望な研究課題と方向性について説明します。
私たちの知る限り、これは、理解と生成を統一する傾向の下で、自己回帰視覚基礎モデルを包括的に要約した最初の調査です。
関連リソースのコレクションは、https://github.com/EmmaSRH/ARVFM で入手できます。

要約(オリジナル)

Autoregression in large language models (LLMs) has shown impressive scalability by unifying all language tasks into the next token prediction paradigm. Recently, there is a growing interest in extending this success to vision foundation models. In this survey, we review the recent advances and discuss future directions for autoregressive vision foundation models. First, we present the trend for next generation of vision foundation models, i.e., unifying both understanding and generation in vision tasks. We then analyze the limitations of existing vision foundation models, and present a formal definition of autoregression with its advantages. Later, we categorize autoregressive vision foundation models from their vision tokenizers and autoregression backbones. Finally, we discuss several promising research challenges and directions. To the best of our knowledge, this is the first survey to comprehensively summarize autoregressive vision foundation models under the trend of unifying understanding and generation. A collection of related resources is available at https://github.com/EmmaSRH/ARVFM.

arxiv情報

著者 Shenghao Xie,Wenqiang Zu,Mingyang Zhao,Duo Su,Shilong Liu,Ruohua Shi,Guoqi Li,Shanghang Zhang,Lei Ma
発行日 2024-10-30 17:51:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク