要約
テキストから画像への生成モデルの出現は、ディープフェイクの分野に革命をもたらし、テキスト記述から直接、リアルで説得力のあるビジュアルコンテンツを作成することを可能にした。しかし、この進歩は、そのようなコンテンツの真正性を検出する上で、かなり大きな課題を提示している。既存のディープフェイク検出データセットや手法では、新たに出現する広範なディープフェイクを効果的に捕捉することができず、検出のための十分な説明情報を提供できないことが多い。この重要な問題に対処するため、本稿では、説得力があり説明可能なディープフェイク検出を開発するためのディープフェイクデータベース(DFLIP-3K)を紹介する。DFLIP-3Kは、約3Kの生成モデルからなる約300Kの多様なディープフェイクサンプルを包含しており、文献中最大のディープフェイクモデル数を誇っている。さらに、これらのディープフェイクの約190K言語フットプリントを収集します。この2つの特徴により、DFLIP-3Kは、ディープフェイクの言語プロファイリングの進展を促進するベンチマークを開発することができます。このベンチマークには、ディープフェイク検出、モデル識別、プロンプト予測の3つのサブタスクが含まれます。ディープフェイクモデルとプロンプトは、各ディープフェイクの2つの本質的な構成要素であるため、言語的に解剖することで、次世代のディープフェイク検出の鍵となる、ディープフェイク検出における信頼できる解釈可能な証拠の貴重な探索を可能にします。さらに、DFLIP-3Kは、透明性を促進し、その成長をさらに高めるための共同作業を奨励するオープンデータベースとして構想されています。開発したベンチマークを用いた広範な実験により、我々のDFLIP-3Kデータベースが、言語ベースのディープフェイク検出、識別、およびプロンプト予測技術を評価・比較するための標準化されたリソースとして機能することが検証された。
要約(オリジナル)
The emergence of text-to-image generative models has revolutionized the field of deepfakes, enabling the creation of realistic and convincing visual content directly from textual descriptions. However, this advancement presents considerably greater challenges in detecting the authenticity of such content. Existing deepfake detection datasets and methods often fall short in effectively capturing the extensive range of emerging deepfakes and offering satisfactory explanatory information for detection. To address the significant issue, this paper introduces a deepfake database (DFLIP-3K) for the development of convincing and explainable deepfake detection. It encompasses about 300K diverse deepfake samples from approximately 3K generative models, which boasts the largest number of deepfake models in the literature. Moreover, it collects around 190K linguistic footprints of these deepfakes. The two distinguished features enable DFLIP-3K to develop a benchmark that promotes progress in linguistic profiling of deepfakes, which includes three sub-tasks namely deepfake detection, model identification, and prompt prediction. The deepfake model and prompt are two essential components of each deepfake, and thus dissecting them linguistically allows for an invaluable exploration of trustworthy and interpretable evidence in deepfake detection, which we believe is the key for the next-generation deepfake detection. Furthermore, DFLIP-3K is envisioned as an open database that fosters transparency and encourages collaborative efforts to further enhance its growth. Our extensive experiments on the developed benchmark verify that our DFLIP-3K database is capable of serving as a standardized resource for evaluating and comparing linguistic-based deepfake detection, identification, and prompt prediction techniques.
arxiv情報
著者 | Yabin Wang,Zhiwu Huang,Zhiheng Ma,Xiaopeng Hong |
発行日 | 2024-01-04 16:19:52+00:00 |
arxivサイト | arxiv_id(pdf) |