要約
フェイク ニュース検出の標準パラダイムは、主にテキスト情報を利用してニュースの真実性をモデル化します。
ただし、オンラインのフェイク ニュースの言説は通常、微妙であり、テキスト情報を使用してフェイク ニュースの誤りを暴くには専門知識が必要です。
最近、マルチモーダルなフェイクニュース検出に焦点を当てた研究が、テキストのみの手法を上回る成績を収めています。
事前トレーニングされたモデルを利用して単峰性の特徴を抽出する、または事前トレーニングされたモデルを直接微調整する最近のアプローチは、フェイク ニュースを検出するための新しいパラダイムとなっています。
繰り返しになりますが、このパラダイムでは、多数のトレーニング インスタンスが必要になるか、事前トレーニングされたモデル パラメーターのセット全体が更新されるため、現実世界のフェイク ニュース検出は非現実的になります。
さらに、従来のマルチモーダル手法は、相関のない意味表現がマルチモーダル特徴にノイズを注入する可能性があることを考慮せずに、クロスモーダル特徴を直接融合します。
この論文では、Similarity-Aware Multimodal Prompt Learning (SAMPLE) フレームワークを提案します。
まず、マルチモーダルなフェイク ニュース検出に迅速な学習を組み込みます。
凍結された言語モデルを使用してプロンプトを調整するだけのプロンプト学習は、微調整と比較してメモリ使用量を大幅に削減し、同等のパフォーマンスを達成できます。
フェイク ニュースを検出するために、ソフト言語化ツールを使用して 3 つのプロンプト テンプレートを分析します。
さらに、マルチモーダル表現の強度を適応的に融合し、相関のないクロスモーダル特徴を介してノイズ注入を軽減する、類似性を意識した融合方法を導入します。
評価に関して、SAMPLE は F1 と 2 つのベンチマーク マルチモーダル データセットに対する以前の研究の精度を上回り、フェイク ニュースの検出における提案された方法の有効性を示しています。
さらに、SAMPLE は、ショット数が少なく、データが豊富な設定に関係なく、他のアプローチよりも優れています。
要約(オリジナル)
The standard paradigm for fake news detection mainly utilizes text information to model the truthfulness of news. However, the discourse of online fake news is typically subtle and it requires expert knowledge to use textual information to debunk fake news. Recently, studies focusing on multimodal fake news detection have outperformed text-only methods. Recent approaches utilizing the pre-trained model to extract unimodal features, or fine-tuning the pre-trained model directly, have become a new paradigm for detecting fake news. Again, this paradigm either requires a large number of training instances, or updates the entire set of pre-trained model parameters, making real-world fake news detection impractical. Furthermore, traditional multimodal methods fuse the cross-modal features directly without considering that the uncorrelated semantic representation might inject noise into the multimodal features. This paper proposes a Similarity-Aware Multimodal Prompt Learning (SAMPLE) framework. First, we incorporate prompt learning into multimodal fake news detection. Prompt learning, which only tunes prompts with a frozen language model, can reduce memory usage significantly and achieve comparable performances, compared with fine-tuning. We analyse three prompt templates with a soft verbalizer to detect fake news. In addition, we introduce the similarity-aware fusing method to adaptively fuse the intensity of multimodal representation and mitigate the noise injection via uncorrelated cross-modal features. For evaluation, SAMPLE surpasses the F1 and the accuracies of previous works on two benchmark multimodal datasets, demonstrating the effectiveness of the proposed method in detecting fake news. In addition, SAMPLE also is superior to other approaches regardless of few-shot and data-rich settings.
arxiv情報
著者 | Ye Jiang,Xiaomin Yu,Yimin Wang,Xiaoman Xu,Xingyi Song,Diana Maynard |
発行日 | 2023-06-16 12:05:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google