要約
近年、扇動的または誤解を招く「フェイク」ニュース コンテンツの蔓延がますます一般的になってきています。
同時に、AI ツールを使用して、想像できるあらゆるシーンを描写したフォトリアリスティックな画像を生成することがこれまでより簡単になりました。
これら 2 つ (AI によって生成されたフェイク ニュース コンテンツ) を組み合わせると、特に強力かつ危険です。
AI が生成したフェイク ニュースの拡散に対抗するために、私たちは、最先端のジェネレーターからの 12,500 個の高品質の本物の画像と AI が生成した画像とキャプションのペアのデータセットである MiRAGENews データセットを提案します。
私たちのデータセットは、人間 (60% F-1) と最先端のマルチモーダル LLM (< 24% F-1) にとって重大な課題となっていることがわかりました。
データセットを使用して、ドメイン外の画像ジェネレーターやニュース発行者からの画像とキャプションのペアで最先端のベースラインと比較して F-1 を +5.1% 改善するマルチモーダル検出器 (MiRAGe) をトレーニングします。
AI によって生成されたコンテンツの検出に関する将来の作業を支援するために、コードとデータを公開します。
要約(オリジナル)
The proliferation of inflammatory or misleading ‘fake’ news content has become increasingly common in recent years. Simultaneously, it has become easier than ever to use AI tools to generate photorealistic images depicting any scene imaginable. Combining these two — AI-generated fake news content — is particularly potent and dangerous. To combat the spread of AI-generated fake news, we propose the MiRAGeNews Dataset, a dataset of 12,500 high-quality real and AI-generated image-caption pairs from state-of-the-art generators. We find that our dataset poses a significant challenge to humans (60% F-1) and state-of-the-art multi-modal LLMs (< 24% F-1). Using our dataset we train a multi-modal detector (MiRAGe) that improves by +5.1% F-1 over state-of-the-art baselines on image-caption pairs from out-of-domain image generators and news publishers. We release our code and data to aid future work on detecting AI-generated content.
arxiv情報
著者 | Runsheng Huang,Liam Dugan,Yue Yang,Chris Callison-Burch |
発行日 | 2024-10-11 17:58:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google