要約
最先端の再構築品質と最先端のゼロショット画像理解を組み合わせた視覚トークン化方法であるQuantized Language-Image Pretraining(QLIP)を紹介します。
QLIPは、再構成および言語イメージのアライメント目標を備えたバイナリ球状の定量化ベースの自動エンコーダーをトレーニングします。
私たちは、2つの目的が対立する必要がないことを最初に示しています。
トレーニング中に2つの損失条件のバランスをとり、2段階のトレーニングパイプラインが、画像言語のトレーニングの大バッチ要件を再構築目標によって課されるメモリボトルネックと効果的に混合することを示します。
単一のモデルを使用して、マルチモーダル理解とテキスト条件付けされた画像生成のためのQLIPの有効性を検証します。
具体的には、QLIPは、Llavaの視覚エンコーダーのドロップイン交換として機能し、同等またはさらに優れたパフォーマンスを備えたラマゲン用の画像トークナー剤として機能します。
最後に、QLIPが理解と生成のための統一された混合モダリティの自動回帰モデルを有効にすることを実証します。
要約(オリジナル)
We introduce Quantized Language-Image Pretraining (QLIP), a visual tokenization method that combines state-of-the-art reconstruction quality with state-of-the-art zero-shot image understanding. QLIP trains a binary-spherical-quantization-based autoencoder with reconstruction and language-image alignment objectives. We are the first to show that the two objectives do not need to be at odds. We balance the two loss terms dynamically during training and show that a two-stage training pipeline effectively mixes the large-batch requirements of image-language pre-training with the memory bottleneck imposed by the reconstruction objective. We validate the effectiveness of QLIP for multimodal understanding and text-conditioned image generation with a single model. Specifically, QLIP serves as a drop-in replacement for the visual encoder for LLaVA and the image tokenizer for LlamaGen with comparable or even better performance. Finally, we demonstrate that QLIP enables a unified mixed-modality auto-regressive model for understanding and generation.
arxiv情報
著者 | Yue Zhao,Fuzhao Xue,Scott Reed,Linxi Fan,Yuke Zhu,Jan Kautz,Zhiding Yu,Philipp Krähenbühl,De-An Huang |
発行日 | 2025-02-07 18:59:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google