要約
マルチモーダルな理解と生成のためのセマンティック離散エンコーディングによる統一視覚言語モデルである MUSE-VL を紹介します。
最近、研究コミュニティは、視覚的な生成と理解のための統一モデルの探索を開始しました。
ただし、既存のビジョン トークナイザー (VQGAN など) は低レベルの情報のみを考慮するため、テクスチャの意味論的特徴と一致させることが困難になります。
その結果、トレーニングの複雑さが高まり、最適なパフォーマンスを達成するには大量のトレーニング データが必要になります。
さらに、それらのパフォーマンスは専用の理解モデルからはまだ程遠いです。
この論文では、ビジュアル トークナイザーにセマンティック制約を追加することでビジュアル トークンと言語トークンの情報を効果的に調整するセマンティック ディスクリート エンコーディング (SDE) を提案します。
これにより、トレーニングの難易度が大幅に軽減され、統合モデルのパフォーマンスが向上します。
提案されたモデルは、さまざまな視覚言語ベンチマークにおいて以前の最先端モデルを大幅に上回り、専用の理解モデルよりも優れたパフォーマンスを達成します。
要約(オリジナル)
We introduce MUSE-VL, a Unified Vision-Language Model through Semantic discrete Encoding for multimodal understanding and generation. Recently, the research community has begun exploring unified models for visual generation and understanding. However, existing vision tokenizers (e.g., VQGAN) only consider low-level information, which makes it difficult to align with texture semantic features. This results in high training complexity and necessitates a large amount of training data to achieve optimal performance. Additionally, their performance is still far from dedicated understanding models. This paper proposes Semantic Discrete Encoding (SDE), which effectively aligns the information of visual tokens and language tokens by adding semantic constraints to the visual tokenizer. This greatly reduces training difficulty and improves the performance of the unified model. The proposed model significantly surpasses the previous state-of-the-art in various vision-language benchmarks and achieves better performance than dedicated understanding models.
arxiv情報
著者 | Rongchang Xie,Chen Du,Ping Song,Chang Liu |
発行日 | 2024-12-05 17:54:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google