A Multi-Label Dataset of French Fake News: Human and Machine Insights

要約

私たちは、専門機関によって信頼性が低いと考えられているフランスの報道機関 17 の情報源から選択され、8 人の注釈者によって 11 のラベルを使用して注釈が付けられた、100 の文書のコーパス OBSINFOX を紹介します。
通常よりも多くのアノテーターによって、通常よりも多くのラベルを収集することで、人間がフェイクニュースの特徴であると考える特徴を特定し、それらを自動分類器の予測と比較することができます。
Gate Cloud を使用したトピックとジャンルの分析を示し、コーパス内の風刺のようなテキストの蔓延を示します。
次に、主観性アナライザー VAGO とそのニューラル バージョンを使用して、「主観」というラベルの帰属と「フェイク ニュース」というラベルの帰属の間の関連性を明確にします。
注釈付きのデータセットは、次の URL でオンラインで入手できます: https://github.com/obs-info/obsinfox キーワード: フェイクニュース、マルチラベル、主観性、曖昧さ、詳細、意見、誇張、フレンチプレス

要約(オリジナル)

We present a corpus of 100 documents, OBSINFOX, selected from 17 sources of French press considered unreliable by expert agencies, annotated using 11 labels by 8 annotators. By collecting more labels than usual, by more annotators than is typically done, we can identify features that humans consider as characteristic of fake news, and compare them to the predictions of automated classifiers. We present a topic and genre analysis using Gate Cloud, indicative of the prevalence of satire-like text in the corpus. We then use the subjectivity analyzer VAGO, and a neural version of it, to clarify the link between ascriptions of the label Subjective and ascriptions of the label Fake News. The annotated dataset is available online at the following url: https://github.com/obs-info/obsinfox Keywords: Fake News, Multi-Labels, Subjectivity, Vagueness, Detail, Opinion, Exaggeration, French Press

arxiv情報

著者 Benjamin Icard,François Maine,Morgane Casanova,Géraud Faye,Julien Chanson,Guillaume Gadek,Ghislain Atemezing,François Bancilhon,Paul Égré
発行日 2024-04-11 09:58:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク