要約
自己回帰モデルは、自然言語処理 (NLP) において優れたスケーラビリティ、適応性、一般化性を備えた優れたパフォーマンスを実証しています。
NLP 分野での顕著な成功に触発されて、自己回帰モデルは、最近コンピューター ビジョン向けに集中的に研究されています。これは、視覚データを視覚トークンとして表すことによって次のトークンの予測を実行し、視覚生成から視覚タスクに至るまでの幅広い視覚タスクの自己回帰モデリングを可能にします。
視覚的な理解は、視覚的な生成と理解を単一の自己回帰モデルで統合する、ごく最近のマルチモーダル生成につながります。
この論文では、画像生成、ビデオ生成、画像編集、モーション生成、医療などのさまざまな視覚タスクをカバーする、既存の手法の分類の開発とその主な貢献、長所、限界の強調など、視覚自己回帰モデルの体系的なレビューを提供します。
画像解析、3D 生成、ロボット操作、統合マルチモーダル生成など。さらに、さまざまな評価データセットにわたる既存手法の徹底的なベンチマークと議論を含め、自己回帰モデルの最新の進歩を調査および分析します。
最後に、主要な課題と将来の研究の有望な方向性を概説し、視覚自己回帰モデルのさらなる進歩を導くためのロードマップを提供します。
要約(オリジナル)
Autoregressive models have demonstrated great performance in natural language processing (NLP) with impressive scalability, adaptability and generalizability. Inspired by their notable success in NLP field, autoregressive models have been intensively investigated recently for computer vision, which perform next-token predictions by representing visual data as visual tokens and enables autoregressive modelling for a wide range of vision tasks, ranging from visual generation and visual understanding to the very recent multimodal generation that unifies visual generation and understanding with a single autoregressive model. This paper provides a systematic review of vision autoregressive models, including the development of a taxonomy of existing methods and highlighting their major contributions, strengths, and limitations, covering various vision tasks such as image generation, video generation, image editing, motion generation, medical image analysis, 3D generation, robotic manipulation, unified multimodal generation, etc. Besides, we investigate and analyze the latest advancements in autoregressive models, including thorough benchmarking and discussion of existing methods across various evaluation datasets. Finally, we outline key challenges and promising directions for future research, offering a roadmap to guide further advancements in vision autoregressive models.
arxiv情報
著者 | Kai Jiang,Jiaxing Huang |
発行日 | 2024-11-13 14:59:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google