VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation

要約

Vila-Uは、ビデオ、画像、言語の理解、および生成を統合する統合された基礎モデルです。
従来の視覚言語モデル(VLM)は、視覚コンテンツを理解および生成するために個別のモジュールを使用します。これにより、不整合と複雑さが増加する可能性があります。
対照的に、Vila-Uは、両方のタスクに対して単一の自己回帰の次のトークン予測フレームワークを採用しており、拡散モデルなどの追加コンポーネントの必要性を排除します。
このアプローチは、モデルを簡素化するだけでなく、視覚的な言語の理解と生成における最先端のパフォーマンスを達成します。
Vila-Uの成功は、2つの主な要因に起因しています。視覚的知覚を高め、自己回帰画像生成が高品質のデータセットを持つ拡散モデルと同様の品質を達成することができる、前提条件中に個別の視覚トークンをテキスト入力と並べる統一されたビジョンタワーです。
これにより、VILA-Uは、完全なトークンベースのオートルーリスションフレームワークを使用して、より複雑なモデルと同等に実行できます。

要約(オリジナル)

VILA-U is a Unified foundation model that integrates Video, Image, Language understanding and generation. Traditional visual language models (VLMs) use separate modules for understanding and generating visual content, which can lead to misalignment and increased complexity. In contrast, VILA-U employs a single autoregressive next-token prediction framework for both tasks, eliminating the need for additional components like diffusion models. This approach not only simplifies the model but also achieves near state-of-the-art performance in visual language understanding and generation. The success of VILA-U is attributed to two main factors: the unified vision tower that aligns discrete visual tokens with textual inputs during pretraining, which enhances visual perception, and autoregressive image generation can achieve similar quality as diffusion models with high-quality dataset. This allows VILA-U to perform comparably to more complex models using a fully token-based autoregressive framework.

arxiv情報

著者 Yecheng Wu,Zhuoyang Zhang,Junyu Chen,Haotian Tang,Dacheng Li,Yunhao Fang,Ligeng Zhu,Enze Xie,Hongxu Yin,Li Yi,Song Han,Yao Lu
発行日 2025-03-04 16:31:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク