Fighting Fire with Fire: Adversarial Prompting to Generate a Misinformation Detection Dataset

要約

GPT、Bard、Llama などの大規模言語モデル (LLM) の言語生成機能における最近の成功は、フェイク ニュースの生成や誤った情報の拡散を介して大衆の動揺や共同体の憎しみを誘発するという悪用の可能性についての懸念につながる可能性があります。
誤った情報の真実のデータセットを開発する従来の手段は、データに注釈を付けるために多大な手作業が必要となるため、十分に拡張できません。
この論文では、誤った情報を特定するためのシルバースタンダードのグラウンドトゥルース データセットを作成する LLM ベースのアプローチを提案します。
具体的に言えば、信頼できるニュース記事が与えられた場合、私たちが提案するアプローチには、LLM に元の記事の要約バージョンを自動的に生成するよう促すことが含まれます。
私たちが提案するアプローチのプロンプトは、生成された概要に特定の種類の事実の不正確さ(数量の誤り、帰属の誤りなど)を生成するための制御メカニズムとして機能します。このデータセットの有用性を調査するために、私たちは、データセットをトレーニングする一連の実験を実施します。
誤った情報を検出するタスクのための教師ありモデルの範囲。

要約(オリジナル)

The recent success in language generation capabilities of large language models (LLMs), such as GPT, Bard, Llama etc., can potentially lead to concerns about their possible misuse in inducing mass agitation and communal hatred via generating fake news and spreading misinformation. Traditional means of developing a misinformation ground-truth dataset does not scale well because of the extensive manual effort required to annotate the data. In this paper, we propose an LLM-based approach of creating silver-standard ground-truth datasets for identifying misinformation. Specifically speaking, given a trusted news article, our proposed approach involves prompting LLMs to automatically generate a summarised version of the original article. The prompts in our proposed approach act as a controlling mechanism to generate specific types of factual incorrectness in the generated summaries, e.g., incorrect quantities, false attributions etc. To investigate the usefulness of this dataset, we conduct a set of experiments where we train a range of supervised models for the task of misinformation detection.

arxiv情報

著者 Shrey Satapara,Parth Mehta,Debasis Ganguly,Sandip Modha
発行日 2024-01-09 10:38:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク