Image Captioning with Multi-Context Synthetic Data

要約

画像キャプションには多数の注釈付き画像とテキストのペアが必要となるため、注釈コストがかなりかかります。
最近では、大規模モデル (拡散モデルや大規模言語モデルなど) が高品質の画像やテキストの生成に優れています。
この可能性を利用して、キャプション モデルをトレーニングするための合成画像とテキストのペアを作成できます。
合成データにより、データ収集のコストと時間の効率が向上し、特定のドメインへのカスタマイズが可能になり、ゼロショット パフォーマンスのためのブートストラップ一般化機能が可能になり、実世界のデータに関連するプライバシーの問題を回避できます。
しかし、既存の方法では、合成データのみを使用して満足のいくパフォーマンスを達成するのは困難です。
私たちは、単純な説明から生成された画像のほとんどが、文脈が限られた孤立した視点を捉えており、現実世界の画像によく見られる複雑なシーンと一致していないため、この問題を特定しました。
これに取り組むために、マルチコンテキスト データ生成を導入する革新的なパイプラインを紹介します。
最初のテキスト コーパスから始まる私たちのアプローチでは、大規模な言語モデルを採用して、同じシーンをさまざまな視点から描写する複数の文を抽出します。
これらの文は、複数のコンテキストを含む 1 つの文に凝縮されます。
続いて、拡散モデルを通じて凝縮されたキャプションを使用して複雑な画像を生成します。
私たちのモデルは、このプロセスを通じて作成された合成画像とテキストのペアのみでトレーニングされています。
当社のパイプラインの有効性は、ドメイン内設定とクロスドメイン設定の両方での実験結果を通じて検証されており、MSCOCO、Flickr30k、NoCaps などのよく知られたデータセットで最先端のパフォーマンスを実現しています。

要約(オリジナル)

Image captioning requires numerous annotated image-text pairs, resulting in substantial annotation costs. Recently, large models (e.g. diffusion models and large language models) have excelled in producing high-quality images and text. This potential can be harnessed to create synthetic image-text pairs for training captioning models. Synthetic data can improve cost and time efficiency in data collection, allow for customization to specific domains, bootstrap generalization capability for zero-shot performance, and circumvent privacy concerns associated with real-world data. However, existing methods struggle to attain satisfactory performance solely through synthetic data. We identify the issue as generated images from simple descriptions mostly capture a solitary perspective with limited context, failing to align with the intricate scenes prevalent in real-world imagery. To tackle this, we present an innovative pipeline that introduces multi-context data generation. Beginning with an initial text corpus, our approach employs a large language model to extract multiple sentences portraying the same scene from diverse viewpoints. These sentences are then condensed into a single sentence with multiple contexts. Subsequently, we generate intricate images using the condensed captions through diffusion models. Our model is exclusively trained on synthetic image-text pairs crafted through this process. The effectiveness of our pipeline is validated through experimental results in both the in-domain and cross-domain settings, where it achieves state-of-the-art performance on well-known datasets such as MSCOCO, Flickr30k, and NoCaps.

arxiv情報

著者 Feipeng Ma,Yizhou Zhou,Fengyun Rao,Yueyi Zhang,Xiaoyan Sun
発行日 2023-12-19 14:17:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク