Unsupervised Compositional Concepts Discovery with Text-to-Image Generative Models

要約

テキストから画像への生成モデルは、様々な領域で高解像度の画像合成を可能にしてきたが、ユーザが生成したいコンテンツを指定する必要がある。本論文では、逆問題を考察する–異なる画像のコレクションが与えられたとき、各画像を表現する生成概念を発見できるか?我々は、画像のコレクションから生成概念を発見する教師なしアプローチを提示し、絵画における異なるアートスタイル、オブジェクト、キッチンシーンからの照明を分離し、ImageNet画像から画像クラスを発見する。このような生成概念が、いかに画像の内容を正確に表現し、新しい芸術的画像やハイブリッド画像を生成するために組み替えられ、構成され、さらに下流の分類タスクのための表現として使用されるかを示す。

要約(オリジナル)

Text-to-image generative models have enabled high-resolution image synthesis across different domains, but require users to specify the content they wish to generate. In this paper, we consider the inverse problem — given a collection of different images, can we discover the generative concepts that represent each image? We present an unsupervised approach to discover generative concepts from a collection of images, disentangling different art styles in paintings, objects, and lighting from kitchen scenes, and discovering image classes given ImageNet images. We show how such generative concepts can accurately represent the content of images, be recombined and composed to generate new artistic and hybrid images, and be further used as a representation for downstream classification tasks.

arxiv情報

著者 Nan Liu,Yilun Du,Shuang Li,Joshua B. Tenenbaum,Antonio Torralba
発行日 2023-08-03 17:07:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク