MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding


マルチモーダルな理解と生成のためのセマンティック離散エンコーディングによる統一視覚言語モデルである MUSE-VL を紹介します。
ただし、既存のビジョン トークナイザー (VQGAN など) は低レベルの情報のみを考慮するため、テクスチャの意味論的特徴と一致させることが困難になります。
その結果、トレーニングの複雑さが高まり、最適なパフォーマンスを達成するには大量のトレーニング データが必要になります。
この論文では、ビジュアル トークナイザーにセマンティック制約を追加することでビジュアル トークンと言語トークンの情報を効果的に調整するセマンティック ディスクリート エンコーディング (SDE) を提案します。


We introduce MUSE-VL, a Unified Vision-Language Model through Semantic discrete Encoding for multimodal understanding and generation. Recently, the research community has begun exploring unified models for visual generation and understanding. However, existing vision tokenizers (e.g., VQGAN) only consider low-level information, which makes it difficult to align with texture semantic features. This results in high training complexity and necessitates a large amount of training data to achieve optimal performance. Additionally, their performance is still far from dedicated understanding models. This paper proposes Semantic Discrete Encoding (SDE), which effectively aligns the information of visual tokens and language tokens by adding semantic constraints to the visual tokenizer. This greatly reduces training difficulty and improves the performance of the unified model. The proposed model significantly surpasses the previous state-of-the-art in various vision-language benchmarks and achieves better performance than dedicated understanding models.


著者 Rongchang Xie,Chen Du,Ping Song,Chang Liu
発行日 2024-12-05 17:54:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク