要約
既存の方法は、分類の問題として偽のニュースビデオの検出に対処していますが、特定のニュースコンテンツが偽物として識別される理由は明らかではありません。
適切な説明がなければ、エンドユーザーは偽のニュースの潜在的な意味を理解できない場合があります。
したがって、ニュースビデオの虚偽を明らかにする自然言語の説明を生成するために、新しいニュースビデオの説明(FNVE)を提案します。
この目的のために、私たちは最初に、偽のニュースビデオ投稿を説明するために2つの新しいデータセットであるOnveとVTSEを開発しました。
次に、onveとvtseのベンチマークにマルチモーダル関係グラフトランス(MRGT)モデルを提案します。
MRGTは、マルチモーダル関係を包括的に表すためにマルチモーダル関係グラフを導入し、世代を説明するためにBARTベースのデコーダーを導入します。
実験結果は、提案されたMRGTが強力なベースラインよりも優れていることを示しています。
さらに、注釈付きのOnveおよびVTSEに関する人間の評価も、妥当性の評価の点で高いスコアを達成しています。
要約(オリジナル)
Although existing methods have addressed fake news video detection as a classification problem, it is not clear why certain news content is identified as fake. Without proper explanation, end users may not be able to understand the potential meaning of fake news. Therefore, we propose a novel task, Fake News Video Explanation (FNVE), to generate natural language explanations that reveal the falseness of news videos. To this end, we first developed ONVE and VTSE, two new datasets to explain fake news video posts. Then, we propose a Multimodal Relation Graph Transformer (MRGT) model to benchmark ONVE and VTSE. MRGT introduces a multimodal relation graph to comprehensively represent multimodal relations and then introduces a BART-based decoder to explain generations. The experimental results show that the proposed MRGT outperforms the strong baselines. In addition, the human evaluation on the annotated ONVE and VTSE also achieves high scores in terms of adequacy rating.
arxiv情報
著者 | Lizhi Chen,Zhong Qian,Peifeng Li,Qiaoming Zhu |
発行日 | 2025-02-19 14:02:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google