TruthLens:A Training-Free Paradigm for DeepFake Detection

要約

高度なAIモデルによって生成された合成画像の増殖は、操作された視覚コンテンツを特定して理解する上で重要な課題をもたらします。
現在の偽の画像検出方法は、精度に焦点を当てながら解釈可能性を無視することが多いバイナリ分類モデルに主に依存しており、ユーザーが画像が本物または偽物と見なされる理由について明確な洞察を与えません。
このギャップを埋めるために、視覚的な質問(VQA)タスクとしてディープファークの検出を再考する新しいトレーニングなしのフレームワークであるTruthLensを紹介します。
TruthLensは、最先端の大型ビジョン言語モデル(LVLMS)を利用して視覚的アーティファクトを観察および説明し、これをGPT-4などの大規模な言語モデル(LLM)の推論能力と組み合わせて、証拠を分析して情報に基づいた決定に集約します。
マルチモーダルアプローチを採用することにより、TruthLensは視覚的およびセマンティックな推論をシームレスに統合して、画像を実際のまたは偽物として分類するだけでなく、その決定について解釈可能な説明を提供します。
この透明性は信頼を高め、合成含有量を信号するアーティファクトに対する貴重な洞察を提供します。
広範な評価は、Truthlensが従来の方法を上回り、説明可能性に強力な重点を維持しながら、挑戦的なデータセットの精度を達成することを示しています。
Truthlensは、推論主導型のプロセスとしてDeepFake検出を再構成することにより、合成媒体との闘いにおける新しいパラダイムを確立し、最先端のパフォーマンスと解釈可能性を組み合わせて、視覚的な偽情報の増大する脅威に対処します。

要約(オリジナル)

The proliferation of synthetic images generated by advanced AI models poses significant challenges in identifying and understanding manipulated visual content. Current fake image detection methods predominantly rely on binary classification models that focus on accuracy while often neglecting interpretability, leaving users without clear insights into why an image is deemed real or fake. To bridge this gap, we introduce TruthLens, a novel training-free framework that reimagines deepfake detection as a visual question-answering (VQA) task. TruthLens utilizes state-of-the-art large vision-language models (LVLMs) to observe and describe visual artifacts and combines this with the reasoning capabilities of large language models (LLMs) like GPT-4 to analyze and aggregate evidence into informed decisions. By adopting a multimodal approach, TruthLens seamlessly integrates visual and semantic reasoning to not only classify images as real or fake but also provide interpretable explanations for its decisions. This transparency enhances trust and provides valuable insights into the artifacts that signal synthetic content. Extensive evaluations demonstrate that TruthLens outperforms conventional methods, achieving high accuracy on challenging datasets while maintaining a strong emphasis on explainability. By reframing deepfake detection as a reasoning-driven process, TruthLens establishes a new paradigm in combating synthetic media, combining cutting-edge performance with interpretability to address the growing threats of visual disinformation.

arxiv情報

著者 Ritabrata Chakraborty,Rajatsubhra Chakraborty,Ali Khaleghi Rahimian,Thomas MacDougall
発行日 2025-03-19 15:41:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク