要約
ソーシャルメディアでのマルチモーダル誤った情報の急速な広がりは、懸念の高まりを引き起こしましたが、大規模で多様なデータセットがないため、ビデオの誤った情報検出に関する研究は限られたままです。
既存の方法は、しばしば厳格なテンプレートに過剰に輝き、欺cept的なコンテンツよりも深い推論を欠いています。
これらの課題に対処するために、微細に解釈可能な注釈を備えた100,000を超えるビデオテキストペアを含む大規模なベンチマークであるFakeVVを紹介します。
さらに、さらに、深い推論を共同のルールベースの強化学習と統合する新しいフレームワークであるFact-R1を提案します。
FACT-R1は、3段階のプロセスを通じて訓練されています。(1)誤った情報の長鎖(COT)命令チューニング、(2)直接優先最適化(DPO)、および(3)新規検証可能な報酬機能を使用した(3)グループ相対ポリシー最適化(GRPO)。
これにより、FACT-R1は、高度なテキストベースの強化学習システムで観察されたものに匹敵する緊急の推論行動を示すことができますが、より複雑なマルチモーダル誤った情報設定です。
私たちの仕事は、誤った情報検出、大規模なビデオ理解の橋渡し、推論ガイド付きアライメント、および解釈可能な検証のための新しいパラダイムを確立します。
要約(オリジナル)
The rapid spread of multimodal misinformation on social media has raised growing concerns, while research on video misinformation detection remains limited due to the lack of large-scale, diverse datasets. Existing methods often overfit to rigid templates and lack deep reasoning over deceptive content. To address these challenges, we introduce FakeVV, a large-scale benchmark comprising over 100,000 video-text pairs with fine-grained, interpretable annotations. In addition, we further propose Fact-R1, a novel framework that integrates deep reasoning with collaborative rule-based reinforcement learning. Fact-R1 is trained through a three-stage process: (1) misinformation long-Chain-of-Thought (CoT) instruction tuning, (2) preference alignment via Direct Preference Optimization (DPO), and (3) Group Relative Policy Optimization (GRPO) using a novel verifiable reward function. This enables Fact-R1 to exhibit emergent reasoning behaviors comparable to those observed in advanced text-based reinforcement learning systems, but in the more complex multimodal misinformation setting. Our work establishes a new paradigm for misinformation detection, bridging large-scale video understanding, reasoning-guided alignment, and interpretable verification.
arxiv情報
著者 | Fanrui Zhang,Dian Li,Qiang Zhang,Chenjun,sinbadliu,Junxiong Lin,Jiahong Yan,Jiawei Liu,Zheng-Jun Zha |
発行日 | 2025-05-22 16:05:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google