Can ChatGPT Detect DeepFakes? A Study of Using Multimodal Large Language Models for Media Forensics

要約

AI によって生成されたメディア コンテンツを指すディープフェイクは、偽情報の手段として使用されるため、懸念が高まっています。
ディープフェイクの検出は現在、プログラムされた機械学習アルゴリズムによって解決されています。
この研究では、ディープフェイク検出におけるマルチモーダル大規模言語モデル (LLM) の機能を調査します。
私たちは、マルチモーダル LLM を実証するために定性的および定量的な実験を実施し、慎重な実験設計と迅速なエンジニアリングを通じて AI によって生成された画像を公開できることを示しました。
LLM が本質的にメディア フォレンジック タスク向けに調整されておらず、そのプロセスにプログラミングが必要ないことを考えると、これは興味深いことです。
これらのタスクに対するマルチモーダル LLM の制限について説明し、可能な改善点を提案します。

要約(オリジナル)

DeepFakes, which refer to AI-generated media content, have become an increasing concern due to their use as a means for disinformation. Detecting DeepFakes is currently solved with programmed machine learning algorithms. In this work, we investigate the capabilities of multimodal large language models (LLMs) in DeepFake detection. We conducted qualitative and quantitative experiments to demonstrate multimodal LLMs and show that they can expose AI-generated images through careful experimental design and prompt engineering. This is interesting, considering that LLMs are not inherently tailored for media forensic tasks, and the process does not require programming. We discuss the limitations of multimodal LLMs for these tasks and suggest possible improvements.

arxiv情報

著者 Shan Jia,Reilin Lyu,Kangran Zhao,Yize Chen,Zhiyuan Yan,Yan Ju,Chuanbo Hu,Xin Li,Baoyuan Wu,Siwei Lyu
発行日 2024-06-11 16:24:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク