要約
人工知能の説明可能性は、特に顔の偽造検出などの分野では、視聴者が本物のコンテンツと捏造されたコンテンツを区別するのに苦労することが多く、信頼を回復するために非常に重要です。
Vision and Large Language Model (VLLM) は、コンピューター ビジョンと自然言語の橋渡しをし、強力な常識的推論によって駆動される多数のアプリケーションを提供します。
さまざまなタスクで成功を収めているにもかかわらず、顔の偽造検出においては視覚と言語の可能性がまだ十分に解明されていないため、言語に固有の推論能力を活用して詳細な操作領域を分析することで説明可能性を高めることが期待されています。
そのため、顔偽造検出を視覚的質問応答 (VQA) タスクに変換して、これらの機能を体系的かつ公正に評価する方法論が必要です。
ディープフェイク検出における統合ベンチマークのこれまでの取り組みは、より単純なバイナリ タスクに焦点を当てており、きめの細かい検出やテキスト生成モデルの評価プロトコルは無視されてきました。
私たちは、このギャップに対処するために、従来の二分決定パラダイムとは異なる多段階のアプローチを提案します。
最初の段階では、バイナリ タスクにおけるモデルのパフォーマンスと、いくつかのプロンプトを使用して与えられた指示に対するモデルの感度を評価します。
第 2 段階では、複数選択の VQA 設定で操作の領域を特定することで、きめの細かい検出をさらに深く掘り下げます。
第 3 段階では、きめの細かい検出を自由回答式の質問に変換し、マルチラベル分類タスクのいくつかのマッチング戦略を比較します。
最後に、ベンチマークに含まれる VLLM の詳細な応答を定性的に評価します。
ベンチマークをいくつかの人気モデルに適用し、7 つのデータセットにわたるバイナリ、多肢選択、および自由形式の VQA 評価の詳細な比較を提供します。
\url{https://nickyfot.github.io/hitchhickersguide.github.io/}
要約(オリジナル)
Explainability in artificial intelligence is crucial for restoring trust, particularly in areas like face forgery detection, where viewers often struggle to distinguish between real and fabricated content. Vision and Large Language Models (VLLM) bridge computer vision and natural language, offering numerous applications driven by strong common-sense reasoning. Despite their success in various tasks, the potential of vision and language remains underexplored in face forgery detection, where they hold promise for enhancing explainability by leveraging the intrinsic reasoning capabilities of language to analyse fine-grained manipulation areas. As such, there is a need for a methodology that converts face forgery detection to a Visual Question Answering (VQA) task to systematically and fairly evaluate these capabilities. Previous efforts for unified benchmarks in deepfake detection have focused on the simpler binary task, overlooking evaluation protocols for fine-grained detection and text-generative models. We propose a multi-staged approach that diverges from the traditional binary decision paradigm to address this gap. In the first stage, we assess the models’ performance on the binary task and their sensitivity to given instructions using several prompts. In the second stage, we delve deeper into fine-grained detection by identifying areas of manipulation in a multiple-choice VQA setting. In the third stage, we convert the fine-grained detection to an open-ended question and compare several matching strategies for the multi-label classification task. Finally, we qualitatively evaluate the fine-grained responses of the VLLMs included in the benchmark. We apply our benchmark to several popular models, providing a detailed comparison of binary, multiple-choice, and open-ended VQA evaluation across seven datasets. \url{https://nickyfot.github.io/hitchhickersguide.github.io/}
arxiv情報
著者 | Niki Maria Foteinopoulou,Enjie Ghorbel,Djamila Aouada |
発行日 | 2024-10-30 16:43:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google