要約
AIベースのマルチメディア生成における最近の進歩により、超現実的な画像とビデオの作成が可能になり、誤った情報の広がりにおける潜在的な使用に関する懸念が高まっています。
プロンプトまたは既存のメディアからの偽のマルチメディアの生産を可能にする生成技術の広範なアクセシビリティと、継続的な改良とともに、欧州デジタルAI法のような新しい規制によっても強調されている非常に正確で一般化可能なAI生成されたメディア検出方法の緊急の必要性を強調しています。
この論文では、Vision Transformer(VIT)ベースの偽の画像検出からインスピレーションを引き出し、このアイデアをビデオに拡張します。
{オリジナル}%革新的なフレームワークを提案します。これは、検出パフォーマンスを向上させるために、時間の経過とともにVIT埋め込みを効果的に統合します。
私たちの方法は、最先端の5つのオープンソース生成技術を使用して生成されたビデオの新しい、大規模で多様なデータセットにおける有望な精度、一般化、および少数の学習機能と、独自の生成方法によって生成されるビデオを含む別のデータセットを含むことを示しています。
要約(オリジナル)
Recent advancements in AI-based multimedia generation have enabled the creation of hyper-realistic images and videos, raising concerns about their potential use in spreading misinformation. The widespread accessibility of generative techniques, which allow for the production of fake multimedia from prompts or existing media, along with their continuous refinement, underscores the urgent need for highly accurate and generalizable AI-generated media detection methods, underlined also by new regulations like the European Digital AI Act. In this paper, we draw inspiration from Vision Transformer (ViT)-based fake image detection and extend this idea to video. We propose an {original} %innovative framework that effectively integrates ViT embeddings over time to enhance detection performance. Our method shows promising accuracy, generalization, and few-shot learning capabilities across a new, large and diverse dataset of videos generated using five open source generative techniques from the state-of-the-art, as well as a separate dataset containing videos produced by proprietary generative methods.
arxiv情報
著者 | Joy Battocchio,Stefano Dell’Anna,Andrea Montibeller,Giulia Boato |
発行日 | 2025-04-29 11:51:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google