Factify 2: A Multimodal Fake News and Satire News Dataset

要約

インターネットは、自分の意見を表現し、ストーリーを共有するためのオープン プラットフォームを世界に提供します。
これは非常に価値のあることですが、フェイクニュースが私たちの社会の最も差し迫った問題の 1 つになります。
手動による事実確認プロセスには時間がかかるため、誤解を招く主張を重大な損害が生じる前に反証することが困難になります。
これが、事実または主張の自動検証への関心を高めているのです。
既存のデータセットの一部は、自動化されたファクトチェック技術の開発をサポートすることを目的としていますが、そのほとんどはテキストベースです。
マルチモーダルな事実検証は、比較的注目されていません。
このペーパーでは、新しいデータ ソースを使用し、風刺記事を追加することで Factify 1 を改良した、FACTIFY 2 と呼ばれるマルチモーダル ファクトチェック データセットを提供します。
Factify 2 には 50,000 の新しいデータ インスタンスがあります。
FACTIFY 1.0 と同様に、サポート、証拠なし、反論という 3 つの広いカテゴリがあり、視覚データとテキスト データの含意に基づいたサブカテゴリがあります。
また、テスト セットで 65% の F1 スコアを達成する BERT および Vison Transformer ベースのベースラインも提供します。
ベースライン コードとデータセットは https://github.com/surya1701/Factify-2.0 で利用可能になります。

要約(オリジナル)

The internet gives the world an open platform to express their views and share their stories. While this is very valuable, it makes fake news one of our society’s most pressing problems. Manual fact checking process is time consuming, which makes it challenging to disprove misleading assertions before they cause significant harm. This is he driving interest in automatic fact or claim verification. Some of the existing datasets aim to support development of automating fact-checking techniques, however, most of them are text based. Multi-modal fact verification has received relatively scant attention. In this paper, we provide a multi-modal fact-checking dataset called FACTIFY 2, improving Factify 1 by using new data sources and adding satire articles. Factify 2 has 50,000 new data instances. Similar to FACTIFY 1.0, we have three broad categories – support, no-evidence, and refute, with sub-categories based on the entailment of visual and textual data. We also provide a BERT and Vison Transformer based baseline, which achieves 65% F1 score in the test set. The baseline codes and the dataset will be made available at https://github.com/surya1701/Factify-2.0.

arxiv情報

著者 S Suryavardan,Shreyash Mishra,Parth Patwa,Megha Chakraborty,Anku Rani,Aishwarya Reganti,Aman Chadha,Amitava Das,Amit Sheth,Manoj Chinnakotla,Asif Ekbal,Srijan Kumar
発行日 2023-10-02 14:48:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク