要約
拡散モデルが登場し、ビジュアル世代における新しい最先端技術が確立されました。
特に、キャプションの説明に基づいて画像を生成するテキストから画像への拡散モデルは、ユーザーの制御性に感銘を受け、ますます注目を集めています。
有望なパフォーマンスにもかかわらず、彼らは偽の画像の誤用の懸念を誇張し、偽の画像の検出に新たな圧力をかけています.
この作業では、テキストから画像への拡散モデルによって生成された偽の画像の信頼性に関する体系的な研究を開拓しました。
特に、text-to-image モデルに特有の視覚モダリティと言語モダリティという 2 つの視点から総合的な研究を行っています。
視覚的モダリティについては、これらのテキストから画像への拡散モデルの偽の画像が共通の手がかりを共有していることを示す普遍的な検出を提案します。これにより、実際の画像と区別することができます。
次に、各拡散モデルが保持する指紋の一意性を明らかにするソース属性を提案します。これを使用して、各偽の画像をそのモデルソースに属性付けることができます。
さまざまなアブレーションおよび分析研究により、提案された各方法の改善がさらに解釈されます。
言語モダリティについては、テキストから画像への拡散モデルの画像の信頼性に対するテキスト キャプションの影響 (プロンプト分析と呼ばれる) を包括的に分析し、偽の画像の検出と帰属のパフォーマンスへの影響を推論するために、より深く掘り下げます。
すべての調査結果は、テキストから画像への拡散モデルの自然な特性に関するコミュニティの洞察に貢献し、急速に進化する偽の画像ジェネレーターに対する、私たちのような対応するソリューションに関するコミュニティの検討に訴えます。
要約(オリジナル)
Diffusion models emerge to establish the new state of the art in the visual generation. In particular, text-to-image diffusion models that generate images based on caption descriptions have attracted increasing attention, impressed by their user controllability. Despite encouraging performance, they exaggerate concerns of fake image misuse and cast new pressures on fake image detection. In this work, we pioneer a systematic study of the authenticity of fake images generated by text-to-image diffusion models. In particular, we conduct comprehensive studies from two perspectives unique to the text-to-image model, namely, visual modality and linguistic modality. For visual modality, we propose universal detection that demonstrates fake images of these text-to-image diffusion models share common cues, which enable us to distinguish them apart from real images. We then propose source attribution that reveals the uniqueness of the fingerprints held by each diffusion model, which can be used to attribute each fake image to its model source. A variety of ablation and analysis studies further interpret the improvements from each of our proposed methods. For linguistic modality, we delve deeper to comprehensively analyze the impacts of text captions (called prompt analysis) on the image authenticity of text-to-image diffusion models, and reason the impacts to the detection and attribution performance of fake images. All findings contribute to the community’s insight into the natural properties of text-to-image diffusion models, and we appeal to our community’s consideration on the counterpart solutions, like ours, against the rapidly-evolving fake image generators.
arxiv情報
著者 | Zeyang Sha,Zheng Li,Ning Yu,Yang Zhang |
発行日 | 2022-10-13 13:08:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google