Language Quantized AutoEncoders: Towards Unsupervised Text-Image Alignment

要約

近年、大規模言語モデルの拡張が進み、テキストベースの様々なタスクにおいて数発学習が可能な素晴らしい能力が示されています。しかし、これらの言語モデルは基本的に視覚を持たないため、視覚質問応答やロボット工学のような実世界との対話や視覚タスクを解決できるようにモデルを拡張するために必要な重要な属性である、大きな制約となっています。先行研究では、画像とテキストのデータセットを用いて事前学習や微調整を行うことで、画像とテキストを結びつけています。この制限を解決するために、我々はLanguage-Quantized AutoEncoder (LQAE) というシンプルかつ効果的なアプローチを提案する。これはVQ-VAEの改良版で、事前に学習した言語モデル(例:BERT、RoBERTa)を活用して教師無しでテキストと画像のデータを整合するように学習するものである。VQ-VAEの主なアイデアは、事前に学習した言語コードブックを用いて画像埋め込みを直接量子化することにより、画像をテキストトークンのシーケンスとして符号化することである。次に、ランダムマスキングとBERTモデルを適用し、デコーダがBERTで予測されたテキストトークン埋め込みから原画像を再構成するようにします。これにより、LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学習し、テキストと画像のペアを使用せずにこれら2つのモダリティを整合させることができる。これにより、BERTテキスト特徴に基づく画像の線形分類と同様に、大規模言語モデル(GPT-3など)を用いた少数ショットの画像分類が可能になります。我々の知る限り、我々の研究は、事前学習された言語モデルの力を活用し、マルチモーダルなタスクのために整列されていない画像を使用した最初の研究である。

要約(オリジナル)

Recent progress in scaling up large language models has shown impressive capabilities in performing few-shot learning across a wide range of text-based tasks. However, a key limitation is that these language models fundamentally lack visual perception – a crucial attribute needed to extend these models to be able to interact with the real world and solve vision tasks, such as in visual-question answering and robotics. Prior works have largely connected image to text through pretraining and/or fine-tuning on curated image-text datasets, which can be a costly and expensive process. In order to resolve this limitation, we propose a simple yet effective approach called Language-Quantized AutoEncoder (LQAE), a modification of VQ-VAE that learns to align text-image data in an unsupervised manner by leveraging pretrained language models (e.g., BERT, RoBERTa). Our main idea is to encode image as sequences of text tokens by directly quantizing image embeddings using a pretrained language codebook. We then apply random masking followed by a BERT model, and have the decoder reconstruct the original image from BERT predicted text token embeddings. By doing so, LQAE learns to represent similar images with similar clusters of text tokens, thereby aligning these two modalities without the use of aligned text-image pairs. This enables few-shot image classification with large language models (e.g., GPT-3) as well as linear classification of images based on BERT text features. To the best of our knowledge, our work is the first work that uses unaligned images for multimodal tasks by leveraging the power of pretrained language models.

arxiv情報

著者 Hao Liu,Wilson Yan,Pieter Abbeel
発行日 2023-02-03 05:06:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク