Lying Blindly: Bypassing ChatGPT’s Safeguards to Generate Hard-to-Detect Disinformation Claims at Scale

要約

大規模言語モデル (LLM) の習熟度が高まるにつれて、大規模なウイルスによる偽情報キャンペーンにおける LLM の悪用に対する懸念が高まっています。
この研究では、ChatGPT が知識限界を超えた出来事であるウクライナ戦争について無条件の主張を生成する能力を調査し、そのような主張が人間の読み手や自動ツールによって人間が書いた主張と区別できるかどうかを評価します。
IFCN に登録されたファクトチェッカーによって作成された ClaimReview からの戦争関連の主張と、ChatGPT によって生成された同様の短い形式のコンテンツを比較します。
私たちは、ChatGPT がターゲットに特化した現実的な偽情報を安価、高速、大規模に生成できること、およびこれらの主張は人間や既存の自動化ツールでは確実に区別できないことを実証します。

要約(オリジナル)

As Large Language Models (LLMs) become more proficient, their misuse in large-scale viral disinformation campaigns is a growing concern. This study explores the capability of ChatGPT to generate unconditioned claims about the war in Ukraine, an event beyond its knowledge cutoff, and evaluates whether such claims can be differentiated by human readers and automated tools from human-written ones. We compare war-related claims from ClaimReview, authored by IFCN-registered fact-checkers, and similar short-form content generated by ChatGPT. We demonstrate that ChatGPT can produce realistic, target-specific disinformation cheaply, fast, and at scale, and that these claims cannot be reliably distinguished by humans or existing automated tools.

arxiv情報

著者 Freddy Heppell,Mehmet E. Bakir,Kalina Bontcheva
発行日 2024-02-13 13:50:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク