要約
最近、マルチモーダル LLM (MLLM) は画像を理解する優れた能力を示しています。
ただし、従来の視覚モデルと同様に、敵対的な画像に対して依然として脆弱です。
一方、思考連鎖 (CoT) 推論は MLLM で広く研究されており、モデルのパフォーマンスを向上させるだけでなく、中間の推論ステップを与えることでモデルの説明可能性も高めます。
それにもかかわらず、MLLM の CoT に対する敵対的堅牢性に関する研究や、MLLM が敵対的画像で間違った答えを推測するときの理論的根拠がどのようなものになるかについての理解はまだ不足しています。
私たちの研究では、CoT 推論を採用した場合の MLLM の敵対的堅牢性を評価し、CoT が既存の攻撃手法に対する敵対的堅牢性をわずかに向上させることがわかりました。
さらに、CoT による堅牢性の強化を効果的に回避する新しいストップ推論攻撃手法を導入します。
最後に、MLLM が敵対的な画像に直面したときの CoT 推論の変化を実証し、敵対的攻撃下での推論プロセスに光を当てます。
要約(オリジナル)
Recently, Multimodal LLMs (MLLMs) have shown a great ability to understand images. However, like traditional vision models, they are still vulnerable to adversarial images. Meanwhile, Chain-of-Thought (CoT) reasoning has been widely explored on MLLMs, which not only improves model’s performance, but also enhances model’s explainability by giving intermediate reasoning steps. Nevertheless, there is still a lack of study regarding MLLMs’ adversarial robustness with CoT and an understanding of what the rationale looks like when MLLMs infer wrong answers with adversarial images. Our research evaluates the adversarial robustness of MLLMs when employing CoT reasoning, finding that CoT marginally improves adversarial robustness against existing attack methods. Moreover, we introduce a novel stop-reasoning attack technique that effectively bypasses the CoT-induced robustness enhancements. Finally, we demonstrate the alterations in CoT reasoning when MLLMs confront adversarial images, shedding light on their reasoning process under adversarial attacks.
arxiv情報
著者 | Zefeng Wang,Zhen Han,Shuo Chen,Fan Xue,Zifeng Ding,Xun Xiao,Volker Tresp,Philip Torr,Jindong Gu |
発行日 | 2024-03-18 10:55:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google