Lying Blindly: Bypassing ChatGPT’s Safeguards to Generate Hard-to-Detect Disinformation Claims

要約

大規模言語モデルの習熟度が高まるにつれ、組織的な偽情報キャンペーンにおける大規模言語モデルの悪用に対する懸念が高まっています。
この研究では、GPT-3.5 を使用した ChatGPT が、ウクライナ戦争全般と、GPT-3.5 の知識限界を超えた特定の出来事についての短い形式の偽情報主張を生成する機能を調査します。
以前の研究とは異なり、人間が書いた偽情報の物語をプロンプトに含めることによってモデルに提供しません。
したがって、生成された短い主張は、事前の世界の知識と最小限のプロンプトからの推論に基づいた幻覚です。
単純なプロンプト手法を使用すると、モデルの保護手段を回避し、多数のショートクレームを生成することができます。
これらを、ClaimReview によるウクライナ戦争に関する人間が作成した虚偽の主張と、特に言語特性の違いに関して比較します。
また、人間の読者や最先端の​​著者検出ツールによって AI の著者を区別できるかどうかも評価します。
したがって、ChatGPT は、特定の遮断後のイベントであっても、現実的でターゲットに特化した偽情報の主張を生成できること、および人間や既存の自動ツールではそれらを確実に区別できないことを実証します。

要約(オリジナル)

As Large Language Models become more proficient, their misuse in coordinated disinformation campaigns is a growing concern. This study explores the capability of ChatGPT with GPT-3.5 to generate short-form disinformation claims about the war in Ukraine, both in general and on a specific event, which is beyond the GPT-3.5 knowledge cutoff. Unlike prior work, we do not provide the model with human-written disinformation narratives by including them in the prompt. Thus the generated short claims are hallucinations based on prior world knowledge and inference from the minimal prompt. With a straightforward prompting technique, we are able to bypass model safeguards and generate numerous short claims. We compare those against human-authored false claims on the war in Ukraine from ClaimReview, specifically with respect to differences in their linguistic properties. We also evaluate whether AI authorship can be differentiated by human readers or state-of-the-art authorship detection tools. Thus, we demonstrate that ChatGPT can produce realistic, target-specific disinformation claims, even on a specific post-cutoff event, and that they cannot be reliably distinguished by humans or existing automated tools.

arxiv情報

著者 Freddy Heppell,Mehmet E. Bakir,Kalina Bontcheva
発行日 2024-12-09 11:34:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク