FKA-Owl: Advancing Multimodal Fake News Detection through Knowledge-Augmented LVLMs

要約

テキストと画像の両方を含むマルチモーダルなフェイクニュースが大量に生成されると、配信に大きな不一致が見られるため、汎用化された検出器の必要性が高まっています。
ただし、トレーニングの隔離された性質により、オープンワールドの事実を取得する従来の検出器の機能が制限されます。
Large Vision-Language Model (LVLM) は世界の豊富な知識をエンコードしていますが、本質的にフェイク ニュースと戦うように調整されておらず、地域の捏造の詳細を理解するのに苦労しています。
この論文では、偽造に特化した知識を活用して LVLM を強化し、効果的に操作を推論できるようにする新しいフレームワークである FKA-Owl を提案します。
強化された偽造固有の知識には、テキストと画像の間の意味的相関関係、および画像操作におけるアーティファクトの追跡が含まれます。
これら 2 種類の知識を LVLM に注入するために、それぞれの表現を確立する 2 つの特殊なモジュールを設計します。
次に、エンコードされた知識の埋め込みが LVLM に組み込まれます。
公開ベンチマークでの広範な実験により、FKA-Owl が以前の方法と比較して優れたクロスドメイン パフォーマンスを達成することが実証されました。
コードは https://liuxuannan.github.io/FKA_Owl.github.io/ で公開されています。

要約(オリジナル)

The massive generation of multimodal fake news involving both text and images exhibits substantial distribution discrepancies, prompting the need for generalized detectors. However, the insulated nature of training restricts the capability of classical detectors to obtain open-world facts. While Large Vision-Language Models (LVLMs) have encoded rich world knowledge, they are not inherently tailored for combating fake news and struggle to comprehend local forgery details. In this paper, we propose FKA-Owl, a novel framework that leverages forgery-specific knowledge to augment LVLMs, enabling them to reason about manipulations effectively. The augmented forgery-specific knowledge includes semantic correlation between text and images, and artifact trace in image manipulation. To inject these two kinds of knowledge into the LVLM, we design two specialized modules to establish their representations, respectively. The encoded knowledge embeddings are then incorporated into LVLMs. Extensive experiments on the public benchmark demonstrate that FKA-Owl achieves superior cross-domain performance compared to previous methods. Code is publicly available at https://liuxuannan.github.io/FKA_Owl.github.io/.

arxiv情報

著者 Xuannan Liu,Peipei Li,Huaibo Huang,Zekun Li,Xing Cui,Jiahao Liang,Lixiong Qin,Weihong Deng,Zhaofeng He
発行日 2024-08-06 07:40:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク