Evaluating the Propensity of Generative AI for Producing Harmful Disinformation During an Election Cycle

要約

Generative人工知能は、中国のスパムフラージュ運用や最近の米国の選挙サイクルに干渉しようとしたロシアのインターネット研究機関の取り組みなど、影響力の活動に従事したい敵に強力なツールを提供します。
したがって、この研究は、選挙サイクル中に有害な偽情報を生成するための現在の生成AIモデルの傾向を調査しようとしています。
異なる生成AIモデルが敵対的プロンプトを与えられたときに偽情報を生成する確率を評価し、さらに関連する害を評価しました。
これにより、各モデルの予想される害が計算され、CopilotとGeminiが予想される最低の害を実現することにより全体的な安全性のために結び付けられ、GPT-4oが有害なディスフォーメーションの最大の割合を生み出し、予想される害スコアがはるかに高いことが発見されました。
偽情報のカテゴリの影響も調査され、ジェミニは選挙中に開発者が行った緩和の試みにより、医療関係者が行った緩和の試みのために、偽情報の政治的カテゴリーで最も安全でした。
さらに、敵対的な役割の特徴が発見され、すべてのモデルで予想される害が大きくなりました。
最後に、この研究で考慮された条件に基づいて、偽情報の生産を予測する分類モデルが開発されました。
これらすべての洞察に基づいて、生成AIモデルによって生成される有害な偽情報につながる要因を軽減しようとする推奨事項が提供されます。
開発者がこれらの洞察を使用して将来のモデルを改善することが期待されています。

要約(オリジナル)

Generative Artificial Intelligence offers a powerful tool for adversaries who wish to engage in influence operations, such as the Chinese Spamouflage operation and the Russian Internet Research Agency effort that both sought to interfere with recent US election cycles. Therefore, this study seeks to investigate the propensity of current generative AI models for producing harmful disinformation during an election cycle. The probability that different generative AI models produced disinformation when given adversarial prompts was evaluated, in addition the associated harm. This allows for the expected harm for each model to be computed and it was discovered that Copilot and Gemini tied for the overall safest performance by realizing the lowest expected harm, while GPT-4o produced the greatest rates of harmful disinformation, resulting in much higher expected harm scores. The impact of disinformation category was also investigated and Gemini was safest within the political category of disinformation due to mitigation attempts made by developers during the election, while Copilot was safest for topics related to health. Moreover, characteristics of adversarial roles were discovered that led to greater expected harm across all models. Finally, classification models were developed that predicted disinformation production based on the conditions considered in this study, which offers insight into factors important for predicting disinformation production. Based on all of these insights, recommendations are provided that seek to mitigate factors that lead to harmful disinformation being produced by generative AI models. It is hoped that developers will use these insights to improve future models.

arxiv情報

著者 Erik J Schlicht
発行日 2025-04-08 16:46:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク