Large language models can consistently generate high-quality content for election disinformation operations

要約

大規模言語モデルの進歩により、選挙に関する説得力のある偽情報を大規模に生成する際に使用される可能性について懸念が生じています。
この研究では、選挙偽情報作戦の各段階を自動化する LLM の機能に関する 2 部構成の調査を紹介します。
まず、英国のローカライズされたコンテキストで選挙偽情報作戦のコンテンツを生成するための指示に対する LLM の遵守を測定するように設計された新しい評価データセットである DisElect を紹介します。これには、2,200 件の悪意のあるプロンプトと 50 件の無害なプロンプトが含​​まれています。
DisElect を使用して 13 個の LLM をテストしたところ、ほとんどのモデルがこれらの要求にほぼ準拠していることがわかりました。
また、悪意のあるプロンプトを拒否する少数のモデルは、良性の選挙関連のプロンプトも拒否し、右翼の観点からのコンテンツの生成を拒否する可能性が高いこともわかりました。
次に、LLM の「人間らしさ」、つまり LLM によって生成された偽情報操作コンテンツが人間が書いたものとしてどの程度通用するかを評価するために一連の実験 (N=2,340) を実施します。
私たちの実験によると、2022 年以降にリリースされた、テストされたほぼすべての LLM は、人間の評価者によって識別できない選挙偽情報操作コンテンツを 50% 以上の確率で生成していることが示唆されています。
特に、複数のモデルが人間を超えるレベルの人間性を達成していることが観察されています。
総合すると、これらの調査結果は、現在の LLM を使用して、極局所的なシナリオであっても、従来の方法よりもはるかに低いコストで、選挙偽情報作戦のための高品質なコンテンツを生成でき、研究者や政策立案者に、選挙偽情報作戦の測定と評価のための経験的なベンチマークを提供できることを示唆しています。
これらの機能は現在および将来のモデルに搭載されています。

要約(オリジナル)

Advances in large language models have raised concerns about their potential use in generating compelling election disinformation at scale. This study presents a two-part investigation into the capabilities of LLMs to automate stages of an election disinformation operation. First, we introduce DisElect, a novel evaluation dataset designed to measure LLM compliance with instructions to generate content for an election disinformation operation in localised UK context, containing 2,200 malicious prompts and 50 benign prompts. Using DisElect, we test 13 LLMs and find that most models broadly comply with these requests; we also find that the few models which refuse malicious prompts also refuse benign election-related prompts, and are more likely to refuse to generate content from a right-wing perspective. Secondly, we conduct a series of experiments (N=2,340) to assess the ‘humanness’ of LLMs: the extent to which disinformation operation content generated by an LLM is able to pass as human-written. Our experiments suggest that almost all LLMs tested released since 2022 produce election disinformation operation content indiscernible by human evaluators over 50% of the time. Notably, we observe that multiple models achieve above-human levels of humanness. Taken together, these findings suggest that current LLMs can be used to generate high-quality content for election disinformation operations, even in hyperlocalised scenarios, at far lower costs than traditional methods, and offer researchers and policymakers an empirical benchmark for the measurement and evaluation of these capabilities in current and future models.

arxiv情報

著者 Angus R. Williams,Liam Burke-Moore,Ryan Sze-Yin Chan,Florence E. Enock,Federico Nanni,Tvesha Sippy,Yi-Ling Chung,Evelina Gabasova,Kobi Hackenburg,Jonathan Bright
発行日 2024-08-13 08:45:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク