信頼性シグナルは、オンライン コンテンツの真実性を評価するためにジャーナリストやファクトチェッカーによって通常使用される幅広いヒューリスティックを表します。
この論文では、18 個の信頼性シグナルのセットを使用して大規模言語モデル (LLM) を効果的に促し、各シグナルに対して弱いラベルを生成できるかどうかを調査します。
ゼロショット LLM 信頼性信号ラベル付けと弱い監視を組み合わせた私たちのアプローチが、トレーニングにグラウンドトゥルース ラベルを使用せずに、2 つの誤った情報データセットに対して最先端の分類器よりも優れたパフォーマンスを発揮することを実証します。
Credibility signals represent a wide range of heuristics that are typically used by journalists and fact-checkers to assess the veracity of online content. Automating the task of credibility signal extraction, however, is very challenging as it requires high-accuracy signal-specific extractors to be trained, while there are currently no sufficiently large datasets annotated with all credibility signals. This paper investigates whether large language models (LLMs) can be prompted effectively with a set of 18 credibility signals to produce weak labels for each signal. We then aggregate these potentially noisy labels using weak supervision in order to predict content veracity. We demonstrate that our approach, which combines zero-shot LLM credibility signal labeling and weak supervision, outperforms state-of-the-art classifiers on two misinformation datasets without using any ground-truth labels for training. We also analyse the contribution of the individual credibility signals towards predicting content veracity, which provides new valuable insights into their role in misinformation detection.
著者 | João A. Leite,Olesya Razuvayevskaya,Kalina Bontcheva,Carolina Scarton |
発行日 | 2023-09-14 11:06:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google