Zero-shot Text-guided Infinite Image Synthesis with LLM guidance

要約

テキストガイドによる画像編集および生成方法は、現実世界でもさまざまな用途に使用できます。
ただし、テキストガイドによる無限画像合成にはいくつかの課題があります。
まず、高解像度でコンテキストの多様性を備えたテキストと画像のペアのデータセットが不足しています。
第二に、テキストに基づいて画像を拡張するには、グローバルな一貫性とローカルなコンテキストの豊富な理解が必要です。
これまでの研究では、主に自然風景などの限られたカテゴリに焦点を当てており、ペアになったテキストを含む高解像度画像でのトレーニングも必要でした。
これらの課題に対処するために、高解像度のテキストと画像のペアのトレーニング データセットを使用せずに、グローバルな一貫性とローカル コンテキストの理解の両方に大規模言語モデル (LLM) を利用する新しいアプローチを提案します。
LLM と視覚特徴から生成されたグローバルおよびローカルのキャプションを条件として画像を拡大するように拡散モデルをトレーニングします。
推論段階では、画像とグローバル キャプションが与えられると、LLM を使用して次のローカル キャプションを生成し、入力画像を拡張します。
次に、グローバル キャプション、生成されたローカル キャプション、および視覚的特徴を使用して画像を拡張し、グローバルな一貫性と空間的なローカル コンテキストを考慮します。
実験では、私たちのモデルは量的および質的にベースラインを上回りました。
さらに、私たちのモデルは、LLM ガイダンスを使用したゼロショット方式でのテキストガイドによる任意サイズの画像生成の機能を実証します。

要約(オリジナル)

Text-guided image editing and generation methods have diverse real-world applications. However, text-guided infinite image synthesis faces several challenges. First, there is a lack of text-image paired datasets with high-resolution and contextual diversity. Second, expanding images based on text requires global coherence and rich local context understanding. Previous studies have mainly focused on limited categories, such as natural landscapes, and also required to train on high-resolution images with paired text. To address these challenges, we propose a novel approach utilizing Large Language Models (LLMs) for both global coherence and local context understanding, without any high-resolution text-image paired training dataset. We train the diffusion model to expand an image conditioned on global and local captions generated from the LLM and visual feature. At the inference stage, given an image and a global caption, we use the LLM to generate a next local caption to expand the input image. Then, we expand the image using the global caption, generated local caption and the visual feature to consider global consistency and spatial local context. In experiments, our model outperforms the baselines both quantitatively and qualitatively. Furthermore, our model demonstrates the capability of text-guided arbitrary-sized image generation in zero-shot manner with LLM guidance.

arxiv情報

著者 Soyeong Kwon,Taegyeong Lee,Taehwan Kim
発行日 2024-07-17 15:10:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク