ConceptExpress: Harnessing Diffusion Models for Single-image Unsupervised Concept Extraction

要約

パーソナライズされたテキストから画像への生成により、複数の画像から 1 つの概念を学習できるようになりましたが、より実用的ではあるが難しいシナリオでは、1 つの画像内で複数の概念を学習する必要があります。
ただし、このシナリオに取り組む既存の作品は、人間による広範な注釈に大きく依存しています。
この論文では、人間の概念知識のない教師なし設定を考慮する教師なし概念抽出 (UCE) という新しいタスクを紹介します。
複数の概念を含む画像が与えられた場合、このタスクは、事前トレーニングされた拡散モデルからの既存の知識のみに基づいて個々の概念を抽出して再作成することを目的としています。
これを達成するために、事前トレーニングされた拡散モデルの固有の機能を 2 つの側面で解き放つことで UCE に取り組む ConceptExpress を紹介します。
具体的には、概念位置特定アプローチは、拡散自己注意からの空間的対応を活用することにより、顕著な概念を自動的に見つけて解きほぐします。
そして、概念と概念トークン間の検索関連に基づいて、概念ごとの最適化プロセスが、個々の概念を表す識別トークンを学習します。
最後に、UCE タスクに合わせた評価プロトコルを確立します。
広範な実験により、ConceptExpress が UCE タスクに対する有望なソリューションであることが実証されました。
私たちのコードとデータは、https://github.com/haoosz/ConceptExpress から入手できます。

要約(オリジナル)

While personalized text-to-image generation has enabled the learning of a single concept from multiple images, a more practical yet challenging scenario involves learning multiple concepts within a single image. However, existing works tackling this scenario heavily rely on extensive human annotations. In this paper, we introduce a novel task named Unsupervised Concept Extraction (UCE) that considers an unsupervised setting without any human knowledge of the concepts. Given an image that contains multiple concepts, the task aims to extract and recreate individual concepts solely relying on the existing knowledge from pretrained diffusion models. To achieve this, we present ConceptExpress that tackles UCE by unleashing the inherent capabilities of pretrained diffusion models in two aspects. Specifically, a concept localization approach automatically locates and disentangles salient concepts by leveraging spatial correspondence from diffusion self-attention; and based on the lookup association between a concept and a conceptual token, a concept-wise optimization process learns discriminative tokens that represent each individual concept. Finally, we establish an evaluation protocol tailored for the UCE task. Extensive experiments demonstrate that ConceptExpress is a promising solution to the UCE task. Our code and data are available at: https://github.com/haoosz/ConceptExpress

arxiv情報

著者 Shaozhe Hao,Kai Han,Zhengyao Lv,Shihao Zhao,Kwan-Yee K. Wong
発行日 2024-07-09 17:50:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク