CLIPAG: Towards Generator-Free Text-to-Image Generation

要約

Perceptually Aligned Gradients (PAG)とは、ロバストな画像分類モデルに見られる興味深い特性のことで、入力勾配が人間の知覚と一致し、意味的なポーズをとるというものである。この現象は重要な研究対象として注目されてきたが、もっぱらユニモーダルな視覚専用アーキテクチャの文脈で研究されてきた。本研究では、PAGの研究を、多様な画像-テキストタスクとアプリケーションの基礎を形成する視覚-言語アーキテクチャに拡張する。CLIPの敵対的ロバスト化の微調整を通じて、ロバストなビジョン-言語モデルが、バニラモデルとは対照的にPAGを示すことを実証する。この研究は、いくつかの視覚言語生成タスクにおけるPAG付きCLIP(CLIPAG)の利点を明らかにする。特に、CLIPAGを「プラグアンドプレイ」方式でシームレスに統合することで、視覚言語生成アプリケーションの大幅な改善につながることを示す。さらに、CLIPAGはそのPAG特性を活用し、一般的に巨大な生成器を必要とする生成モデルなしにテキストから画像への生成を可能にする。

要約(オリジナル)

Perceptually Aligned Gradients (PAG) refer to an intriguing property observed in robust image classification models, wherein their input gradients align with human perception and pose semantic meanings. While this phenomenon has gained significant research attention, it was solely studied in the context of unimodal vision-only architectures. In this work, we extend the study of PAG to Vision-Language architectures, which form the foundations for diverse image-text tasks and applications. Through an adversarial robustification finetuning of CLIP, we demonstrate that robust Vision-Language models exhibit PAG in contrast to their vanilla counterparts. This work reveals the merits of CLIP with PAG (CLIPAG) in several vision-language generative tasks. Notably, we show that seamlessly integrating CLIPAG in a ‘plug-n-play’ manner leads to substantial improvements in vision-language generative applications. Furthermore, leveraging its PAG property, CLIPAG enables text-to-image generation without any generative model, which typically requires huge generators.

arxiv情報

著者 Roy Ganz,Michael Elad
発行日 2023-09-01 12:53:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク