VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation

要約

VILA-U は、ビデオ、画像、言語の理解と生成を統合する統合基盤モデルです。
従来のビジュアル言語モデル (VLM) は、ビジュアル コンテンツの理解と生成に別個のモジュールを使用するため、不整合や複雑さの増加につながる可能性があります。
対照的に、VILA-U は両方のタスクに単一の自己回帰ネクストトークン予測フレームワークを採用しており、拡散モデルなどの追加コンポーネントの必要性を排除しています。
このアプローチはモデルを簡素化するだけでなく、視覚言語の理解と生成において最先端に近いパフォーマンスを実現します。
VILA-U の成功は 2 つの主な要因によるものです。1 つは、事前トレーニング中に離散ビジュアル トークンをテキスト入力と位置合わせする統合ビジョン タワーであり、視覚認識を強化します。もう 1 つは、自己回帰画像生成により、高品質のデータセットを使用した拡散モデルと同様の品質を達成できます。
これにより、VILA-U は、完全なトークンベースの自己回帰フレームワークを使用して、より複雑なモデルと同等のパフォーマンスを実行できるようになります。

要約(オリジナル)

VILA-U is a Unified foundation model that integrates Video, Image, Language understanding and generation. Traditional visual language models (VLMs) use separate modules for understanding and generating visual content, which can lead to misalignment and increased complexity. In contrast, VILA-U employs a single autoregressive next-token prediction framework for both tasks, eliminating the need for additional components like diffusion models. This approach not only simplifies the model but also achieves near state-of-the-art performance in visual language understanding and generation. The success of VILA-U is attributed to two main factors: the unified vision tower that aligns discrete visual tokens with textual inputs during pretraining, which enhances visual perception, and autoregressive image generation can achieve similar quality as diffusion models with high-quality dataset. This allows VILA-U to perform comparably to more complex models using a fully token-based autoregressive framework.

arxiv情報

著者 Yecheng Wu,Zhuoyang Zhang,Junyu Chen,Haotian Tang,Dacheng Li,Yunhao Fang,Ligeng Zhu,Enze Xie,Hongxu Yin,Li Yi,Song Han,Yao Lu
発行日 2024-10-23 16:42:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク