要約
VQ-VAE などの画像トークナイザーの最近の進歩により、言語モデリングと同様の自動回帰手法を使用したテキストから画像への生成が可能になりました。
ただし、これらの方法は、さまざまな下流タスクへの適応性にもかかわらず、事前トレーニングされた言語モデルをまだ活用していません。
この研究では、事前トレーニングされた言語モデルを自動回帰テキストから画像への生成に適応させることでこのギャップを調査し、事前トレーニングされた言語モデルが提供する支援が限定的であることを発見しました。
各モダリティのトークンを分析することで、2 つの説明を提供します。
まず、画像トークンはテキスト トークンと比較して大幅に異なるセマンティクスを備えており、事前トレーニングされた言語モデルはランダムに初期化された言語モデルと比べてモデリングにおいて効果的ではないことを示します。
第 2 に、画像テキスト データセット内のテキスト トークンは、通常の言語モデルの事前トレーニング データと比較して単純すぎるため、言語モデルの機能の壊滅的な低下を引き起こします。
要約(オリジナル)
Recent advances in image tokenizers, such as VQ-VAE, have enabled text-to-image generation using auto-regressive methods, similar to language modeling. However, these methods have yet to leverage pre-trained language models, despite their adaptability to various downstream tasks. In this work, we explore this gap by adapting a pre-trained language model for auto-regressive text-to-image generation, and find that pre-trained language models offer limited help. We provide a two-fold explanation by analyzing tokens from each modality. First, we demonstrate that image tokens possess significantly different semantics compared to text tokens, rendering pre-trained language models no more effective in modeling them than randomly initialized ones. Second, the text tokens in the image-text datasets are too simple compared to normal language model pre-training data, which causes the catastrophic degradation of language models’ capability.
arxiv情報
| 著者 | Yuhui Zhang,Brandon McKinzie,Zhe Gan,Vaishaal Shankar,Alexander Toshev | 
| 発行日 | 2024-09-25 17:58:21+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
