MMIDR: Teaching Large Language Model to Interpret Multimodal Misinformation via Knowledge Distillation

要約

多様な誤情報の自動検出は、最近広く注目を集めています。
ただし、マルチモーダルな誤情報検出のための強力なラージ言語モデル (LLM) の可能性は、まだ十分に解明されていません。
さらに、費用対効果が高くアクセスしやすい方法で、マルチモーダルな誤った情報を解釈するように LLM に教える方法はまだ未解決の問題です。
これに対処するために、私たちは MMIDR を提案します。MMIDR は、LLM にマルチモーダルな誤った情報の意思決定プロセスについて流暢で高品質なテキストによる説明を提供することを教えるように設計されたフレームワークです。
マルチモーダルな誤った情報を適切な指示に従う形式に変換するために、データ拡張の観点とパイプラインを提示します。
このパイプラインは、視覚情報処理モジュールと証拠検索モジュールで構成されます。
続いて、処理されたコンテンツを含む独自の LLM に、マルチモーダルな誤った情報の信憑性を解釈する根拠を抽出するよう促します。
さらに、マルチモーダルな誤った情報をオープンソース LLM に説明する独自の LLM の機能を抽出するための効率的な知識抽出アプローチを設計します。
マルチモーダルな誤情報検出タスクにおける LLM のパフォーマンスに関するいくつかの研究課題を調査するために、命令に従うマルチモーダルな誤情報データセットを構築し、包括的な実験を実施します。
実験結果は、当社の MMIDR が十分な検出性能を示し、その評価を裏付ける説得力のある理論的根拠を提供する能力を備えていることを明らかにしています。

要約(オリジナル)

Automatic detection of multimodal misinformation has gained a widespread attention recently. However, the potential of powerful Large Language Models (LLMs) for multimodal misinformation detection remains underexplored. Besides, how to teach LLMs to interpret multimodal misinformation in cost-effective and accessible way is still an open question. To address that, we propose MMIDR, a framework designed to teach LLMs in providing fluent and high-quality textual explanations for their decision-making process of multimodal misinformation. To convert multimodal misinformation into an appropriate instruction-following format, we present a data augmentation perspective and pipeline. This pipeline consists of a visual information processing module and an evidence retrieval module. Subsequently, we prompt the proprietary LLMs with processed contents to extract rationales for interpreting the authenticity of multimodal misinformation. Furthermore, we design an efficient knowledge distillation approach to distill the capability of proprietary LLMs in explaining multimodal misinformation into open-source LLMs. To explore several research questions regarding the performance of LLMs in multimodal misinformation detection tasks, we construct an instruction-following multimodal misinformation dataset and conduct comprehensive experiments. The experimental findings reveal that our MMIDR exhibits sufficient detection performance and possesses the capacity to provide compelling rationales to support its assessments.

arxiv情報

著者 Longzheng Wang,Xiaohan Xu,Lei Zhang,Jiarui Lu,Yongxiu Xu,Hongbo Xu,Minghao Tang,Chuang Zhang
発行日 2024-04-08 08:30:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク