Amazing Combinatorial Creation: Acceptable Swap-Sampling for Text-to-Image Generation

要約

人間の創造性をエミュレートして、複数のテキスト記述から意味のある組み合わせオブジェクト画像を生成する機械学習システムを探索することは、人間は驚くべき組み合わせオブジェクトを構築できるため、重要な課題です。しかし、機械はデータ分散をエミュレートしようと努めています。
この論文では、さまざまなオブジェクトのテキスト概念を利用して、斬新さと驚きを示す組み合わせオブジェクト画像を生成するための、許容可能なスワップサンプリングと呼ばれる、単純でありながら非常に効果的な手法を開発します。
最初に、最先端の拡散モデルを通じて新しい組み合わせ画像を生成するために、2 つのテキスト埋め込みの列ベクトルを交換することによって新しい埋め込みを構築する交換メカニズムを提案します。
さらに、新しい画像と元の概念世代の間の適切な CLIP 距離を管理することで許容範囲を設計し、高品質の組み合わせで新しい画像が受け入れられる可能性を高めます。
この領域により、ランダムに交換される列ベクトルを使用して生成された新しい画像プールから小さなサブセットを効率的にサンプリングできます。
最後に、セグメント化手法を使用してセグメント化されたコンポーネント間の CLIP 距離を比較し、最終的にサンプリングされたサブセットから最も有望なオブジェクト画像を選択します。
私たちの実験は、ImageNet からのオブジェクトのテキスト ペアに焦点を当てており、その結果は、関連する概念が次のように見える場合でも、斬新で驚くべきオブジェクト画像を生成する点で、私たちのアプローチが Stable-Diffusion2、DALLE2、ERNIE-ViLG2、Bing などの最近の手法よりも優れていることを示しています。
ミノカサゴそろばんなど、ありえない。
さらに、サンプリング プロセス中、トレーニングと人間の好みを使用しないアプローチは、人間の好みのデータセットを使用してトレーニングされた PickScore および HPSv2 にも匹敵します。

要約(オリジナル)

Exploring a machine learning system to generate meaningful combinatorial object images from multiple textual descriptions, emulating human creativity, is a significant challenge as humans are able to construct amazing combinatorial objects, but machines strive to emulate data distribution. In this paper, we develop a straight-forward yet highly effective technique called acceptable swap-sampling to generate a combinatorial object image that exhibits novelty and surprise, utilizing text concepts of different objects. Initially, we propose a swapping mechanism that constructs a novel embedding by exchanging column vectors of two text embeddings for generating a new combinatorial image through a cutting-edge diffusion model. Furthermore, we design an acceptable region by managing suitable CLIP distances between the new image and the original concept generations, increasing the likelihood of accepting the new image with a high-quality combination. This region allows us to efficiently sample a small subset from a new image pool generated by using randomly exchanging column vectors. Lastly, we employ a segmentation method to compare CLIP distances among the segmented components, ultimately selecting the most promising object image from the sampled subset. Our experiments focus on text pairs of objects from ImageNet, and our results demonstrate that our approach outperforms recent methods such as Stable-Diffusion2, DALLE2, ERNIE-ViLG2 and Bing in generating novel and surprising object images, even when the associated concepts appear to be implausible, such as lionfish-abacus. Moreover, during the sampling process, our approach without training and human preference is also comparable to PickScore and HPSv2 trained using human preference datasets.

arxiv情報

著者 Jun Li,Zedong Zhang,Jian Yang
発行日 2023-10-20 09:23:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク