Imitation Game for Adversarial Disillusion with Multimodal Generative Chain-of-Thought Role-Play

要約

人工知能の礎石として、機械の知覚は敵対的な幻想によってもたらされる基本的な脅威に直面しています。
これらの敵対的な攻撃は、2つの主要な形式で現れます。演ductive的な幻想。犠牲者モデルの一般的な決定論理に基づいて特定の刺激が作成され、犠牲者モデルの一般的な決定論理が特定の刺激によって形成される帰納的錯覚です。
前者は、モデルの決定境界を活用して、適用されると意思決定プロセスを妨げる刺激を作成します。
後者は、モデルの条件付き反射を強化し、その学習段階でバックドアを埋め込み、刺激によって引き起こされると異常な行動を引き起こします。
敵対的な幻想の多面的な性質は、統一された防衛フレームワークを求めており、さまざまな形態の攻撃にわたる脆弱性に対処しています。
この研究では、模倣ゲームの概念に基づいた幻滅パラダイムを提案します。
模倣ゲームの中心には、思考の連鎖的な推論によって操縦されたマルチモーダル生成エージェントがあります。これは、サンプルを元の状態に逆転させる古典的な追求から解放されたサンプルの意味的な本質を観察、内面化、再構築します。
概念実証として、マルチモーダル生成対話エージェントを使用して実験シミュレーションを実施し、さまざまな攻撃シナリオの下で方法論を評価します。

要約(オリジナル)

As the cornerstone of artificial intelligence, machine perception confronts a fundamental threat posed by adversarial illusions. These adversarial attacks manifest in two primary forms: deductive illusion, where specific stimuli are crafted based on the victim model’s general decision logic, and inductive illusion, where the victim model’s general decision logic is shaped by specific stimuli. The former exploits the model’s decision boundaries to create a stimulus that, when applied, interferes with its decision-making process. The latter reinforces a conditioned reflex in the model, embedding a backdoor during its learning phase that, when triggered by a stimulus, causes aberrant behaviours. The multifaceted nature of adversarial illusions calls for a unified defence framework, addressing vulnerabilities across various forms of attack. In this study, we propose a disillusion paradigm based on the concept of an imitation game. At the heart of the imitation game lies a multimodal generative agent, steered by chain-of-thought reasoning, which observes, internalises and reconstructs the semantic essence of a sample, liberated from the classic pursuit of reversing the sample to its original state. As a proof of concept, we conduct experimental simulations using a multimodal generative dialogue agent and evaluates the methodology under a variety of attack scenarios.

arxiv情報

著者 Ching-Chun Chang,Fan-Yun Chen,Shih-Hong Gu,Kai Gao,Hanrui Wang,Isao Echizen
発行日 2025-01-31 13:57:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV パーマリンク