要約
現在の視覚言語生成モデルは、最適なパフォーマンスと汎化機能を実現するために、画像とテキストのペアデータの広大なコーパスに依存しています。
ただし、そのようなデータを自動的に収集すると (大規模な Web スクレイピングなどを介して)、品質が低くなり、画像とテキストの相関性が低下します。一方、人間による注釈はより正確ですが、多大な手作業と費用が必要になります。
$\textbf{ITIT}$ ($\textbf{I}$n$\textbf{T}$egrated $\textbf{I}$mage $\textbf{T}$ext) を紹介します。これは、以下に基づいた革新的なトレーニング パラダイムです。
サイクルの一貫性の概念。これにより、ペアになっていない画像データとテキスト データに対する視覚言語トレーニングが可能になります。
ITIT は、単一のフレームワークで双方向の画像からテキストへの生成、およびテキストから画像への生成を可能にする、分離された画像およびテキスト デコーダーを備えた結合画像テキスト エンコーダーで構成されています。
ITIT はトレーニング中に、画像とテキストのペアになった小さなセットを利用して、その出力が入力と双方向で適切に一致することを確認します。
同時に、モデルは画像またはテキストのみを含むはるかに大きなデータセットでもトレーニングされます。
これは、元のペアになっていないサンプルとサイクルで生成された対応するサンプルの間でサイクルの一貫性を強制することによって実現されます。
たとえば、指定された入力画像のキャプションを生成し、そのキャプションを使用して出力画像を作成し、入力画像と出力画像の類似性を強制します。
私たちの実験は、ペアになっていないデータセットを使用した ITIT が、高品質のペアになったデータを使用した場合と同様のスケーリング動作を示すことを示しています。
私たちは、画像とテキストのペアデータが桁違いに少ない (わずか 300 万個) という最先端のテキストから画像および画像からテキストへのモデルと同等の画像生成とキャプションのパフォーマンスを実証します。
要約(オリジナル)
Current vision-language generative models rely on expansive corpora of paired image-text data to attain optimal performance and generalization capabilities. However, automatically collecting such data (e.g. via large-scale web scraping) leads to low quality and poor image-text correlation, while human annotation is more accurate but requires significant manual effort and expense. We introduce $\textbf{ITIT}$ ($\textbf{I}$n$\textbf{T}$egrating $\textbf{I}$mage $\textbf{T}$ext): an innovative training paradigm grounded in the concept of cycle consistency which allows vision-language training on unpaired image and text data. ITIT is comprised of a joint image-text encoder with disjoint image and text decoders that enable bidirectional image-to-text and text-to-image generation in a single framework. During training, ITIT leverages a small set of paired image-text data to ensure its output matches the input reasonably well in both directions. Simultaneously, the model is also trained on much larger datasets containing only images or texts. This is achieved by enforcing cycle consistency between the original unpaired samples and the cycle-generated counterparts. For instance, it generates a caption for a given input image and then uses the caption to create an output image, and enforces similarity between the input and output images. Our experiments show that ITIT with unpaired datasets exhibits similar scaling behavior as using high-quality paired data. We demonstrate image generation and captioning performance on par with state-of-the-art text-to-image and image-to-text models with orders of magnitude fewer (only 3M) paired image-text data.
arxiv情報
著者 | Tianhong Li,Sangnie Bhardwaj,Yonglong Tian,Han Zhang,Jarred Barber,Dina Katabi,Guillaume Lajoie,Huiwen Chang,Dilip Krishnan |
発行日 | 2023-10-05 17:55:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google