要約
ジェネレーティブ・アーティフィシャル・インテリジェンス(GenAI)機能の急速な進歩は、その悪用の増加という問題を伴っている。特に、画像という形で信憑性の高い誤情報を生成することは、民主的プロセスに対する国民の信頼に重大な脅威をもたらす。その結果、本物のコンテンツとAIが生成したコンテンツを確実に区別するツールの開発が急務となっている。検出手法の大半は、フォレンジック・アーティファクトを認識するように訓練されたニューラルネットワークに基づいている。本研究では、現在の最先端の分類器が、実世界の条件下では敵対的な例に対して脆弱であることを実証する。4つの検出方法と5つの攻撃アルゴリズムからなる広範な実験を通じて、攻撃者が検出器のアーキテクチャを内部的に知ることなく、分類性能を劇的に低下させることができることを示す。注目すべきことに、ほとんどの攻撃は、例えばソーシャルメディア・プラットフォームへのアップロード中に画像が劣化した場合でも有効なままである。ケーススタディでは、独自のオンラインGenAIメディア検出器であるHIVEに対してブラックボックス攻撃を行うことで、これらの堅牢性の課題が商用ツールでも見られることを実証する。さらに、ロバストな事前訓練モデルの生成された特徴量を使用した場合のロバスト性を評価し、これによりロバスト性が向上する一方で、良性入力に対する性能には達しないことを示した。これらの結果は、GenAIが社会的信用を損なう可能性が高まっていることと共に、GenAIの悪用を防止する手法に関するさらなる研究と新たな視点の必要性を強調している。
要約(オリジナル)
The rapid advancement of Generative Artificial Intelligence (GenAI) capabilities is accompanied by a concerning rise in its misuse. In particular the generation of credible misinformation in the form of images poses a significant threat to the public trust in democratic processes. Consequently, there is an urgent need to develop tools to reliably distinguish between authentic and AI-generated content. The majority of detection methods are based on neural networks that are trained to recognize forensic artifacts. In this work, we demonstrate that current state-of-the-art classifiers are vulnerable to adversarial examples under real-world conditions. Through extensive experiments, comprising four detection methods and five attack algorithms, we show that an attacker can dramatically decrease classification performance, without internal knowledge of the detector’s architecture. Notably, most attacks remain effective even when images are degraded during the upload to, e.g., social media platforms. In a case study, we demonstrate that these robustness challenges are also found in commercial tools by conducting black-box attacks on HIVE, a proprietary online GenAI media detector. In addition, we evaluate the robustness of using generated features of a robust pre-trained model and showed that this increases the robustness, while not reaching the performance on benign inputs. These results, along with the increasing potential of GenAI to erode public trust, underscore the need for more research and new perspectives on methods to prevent its misuse.
arxiv情報
著者 | Sina Mavali,Jonas Ricker,David Pape,Asja Fischer,Lea Schönherr |
発行日 | 2025-06-03 16:40:40+00:00 |
arxivサイト | arxiv_id(pdf) |