要約
この論文では、生成フレームワークで 20 を超えるコンピューター ビジョン タスクに取り組むように設計された、スケーラブルで統合された基盤モデルである Large Vision Diffusion Transformer (LaVin-DiT) について説明します。
効率の低い自己回帰技術に依存し、視覚データに不可欠な空間関係を破壊する自然言語処理アーキテクチャから直接適応された既存の大規模視覚モデルとは異なり、LaVin-DiT は視覚タスクの生成パフォーマンスを最適化するための主要な革新を導入します。
まず、視覚データの高次元性に対処するために、データを連続潜在空間にエンコードする時空間変分オートエンコーダーを組み込みます。
次に、生成モデリングのために、ビジョン出力を段階的に生成する共同拡散トランスフォーマーを開発します。
第三に、統合されたマルチタスク トレーニングのために、コンテキスト内学習が実装されます。
入力とターゲットのペアはタスク コンテキストとして機能し、拡散変換器が出力を潜在空間内の特定のタスクに合わせるようガイドします。
推論中、タスク固有のコンテキスト セットとクエリとしてのテスト データにより、LaVin-DiT は微調整することなくタスク間で一般化できます。
広範な視覚データセットでトレーニングされたモデルは、0.1B から 3.4B パラメーターまでスケールされ、多様な視覚タスクにわたって実質的な拡張性と最先端のパフォーマンスを実証します。
この研究では、大型ビジョン基盤モデルに新しい経路を導入し、拡散トランスの有望な可能性を強調しています。
コードとモデルはオープンソース化されます。
要約(オリジナル)
This paper presents the Large Vision Diffusion Transformer (LaVin-DiT), a scalable and unified foundation model designed to tackle over 20 computer vision tasks in a generative framework. Unlike existing large vision models directly adapted from natural language processing architectures, which rely on less efficient autoregressive techniques and disrupt spatial relationships essential for vision data, LaVin-DiT introduces key innovations to optimize generative performance for vision tasks. First, to address the high dimensionality of visual data, we incorporate a spatial-temporal variational autoencoder that encodes data into a continuous latent space. Second, for generative modeling, we develop a joint diffusion transformer that progressively produces vision outputs. Third, for unified multi-task training, in-context learning is implemented. Input-target pairs serve as task context, which guides the diffusion transformer to align outputs with specific tasks within the latent space. During inference, a task-specific context set and test data as queries allow LaVin-DiT to generalize across tasks without fine-tuning. Trained on extensive vision datasets, the model is scaled from 0.1B to 3.4B parameters, demonstrating substantial scalability and state-of-the-art performance across diverse vision tasks. This work introduces a novel pathway for large vision foundation models, underscoring the promising potential of diffusion transformers. The code and models will be open-sourced.
arxiv情報
著者 | Zhaoqing Wang,Xiaobo Xia,Runnan Chen,Dongdong Yu,Changhu Wang,Mingming Gong,Tongliang Liu |
発行日 | 2024-11-18 12:05:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google