要約
ニュースメディア、特にビデオベースのプラットフォームは、日常生活に深く埋め込まれており、誤った情報拡散のリスクを同時に増幅しています。
その結果、マルチモーダルの偽のニュース検出は、重要な研究の注目を集めています。
ただし、既存のデータセットは、主に粗野な編集と限られた公共の環境を特徴とするユーザー生成ビデオで構成されていますが、専門的に作成された偽のニュースビデオは、政治的またはウイルスに動機付けられたメディアのアウトレットに広がっていることに広がっています。
このギャップに対処するために、メディア組織が発行したニュースビデオで構成される小説Da-TasetであるFMNVを構築します。
既存のデータセットとキュレーションされたコレクションの経験的分析を通じて、偽のニュースビデオを4つの異なるタイプに分類します。
この分類法に基づいて、大規模な言語モデル(LLM)を採用して、本物のメディアが発行したニュースビデオを操作することにより、欺cept的なコンテンツを自動的に生成します。
さらに、3D ResNext-101バックボーンからの時空間の動きの特徴を統合し、CLIPからの静的な視覚セマンティクスを統合するデュアルストリームアーキテクチャを特徴とするベースラインモデルであるFMNVDを提案します。
2つのストリームは、注意ベースのメカニズムを介して融合され、共競合モジュールは、効果的なマルチモーダル集約のために視覚、テキスト、およびオーディオ機能を改良します。
比較実験は、複数のベースラインにわたるFMNVの一般化能力とFMNVDの優れた検出効果の両方を示しています。
この作業は、メディアのエコシステムでインパクトの高い偽のニュースを抑制するための重要なベンチマークを確立し、モーダルの矛盾分析のためにメス脱草数を進めています。
データセットはhttps://github.com/dennisiw/fmnvで入手できます。
要約(オリジナル)
News media, particularly video-based platforms, have become deeply embed-ded in daily life, concurrently amplifying the risks of misinformation dissem-ination. Consequently, multimodal fake news detection has garnered signifi-cant research attention. However, existing datasets predominantly comprise user-generated videos characterized by crude editing and limited public en-gagement, whereas professionally crafted fake news videos disseminated by media outlets-often politically or virally motivated-pose substantially greater societal harm. To address this gap, we construct FMNV, a novel da-taset exclusively composed of news videos published by media organizations. Through empirical analysis of existing datasets and our curated collection, we categorize fake news videos into four distinct types. Building upon this taxonomy, we employ Large Language Models (LLMs) to automatically generate deceptive content by manipulating authentic media-published news videos. Furthermore, we propose FMNVD, a baseline model featuring a dual-stream architecture that integrates spatio-temporal motion features from a 3D ResNeXt-101 backbone and static visual semantics from CLIP. The two streams are fused via an attention-based mechanism, while co-attention modules refine the visual, textual, and audio features for effective multi-modal aggregation. Comparative experiments demonstrate both the generali-zation capability of FMNV across multiple baselines and the superior detec-tion efficacy of FMNVD. This work establishes critical benchmarks for de-tecting high-impact fake news in media ecosystems while advancing meth-odologies for cross-modal inconsistency analysis. Our dataset is available in https://github.com/DennisIW/FMNV.
arxiv情報
著者 | Yihao Wang,Zhong Qian,Peifeng Li |
発行日 | 2025-05-13 14:09:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google