要約
Flamingo や GPT-4 などの視覚モデルと言語モデルを組み合わせたマルチモーダル基盤モデルは、最近大きな関心を集めています。
基礎モデルの位置合わせは、モデルが有毒または有害な出力を提供するのを防ぐために使用されます。
悪意のあるユーザーは基盤モデルの脱獄に成功しましたが、同様に重要な問題は、悪意のあるサードパーティのコンテンツによって誠実なユーザーが被害を受ける可能性があるかどうかです。
この論文では、マルチモーダル基礎モデルのキャプション出力を変更するための画像に対する知覚できない攻撃が、悪意のあるコンテンツプロバイダーによって使用され、誠実なユーザーに損害を与える可能性があることを示します。
悪意のある Web サイトに誘導したり、偽の情報を流したりすることによって。
これは、展開されたマルチモーダル基盤モデルで敵対的攻撃への対策を使用する必要があることを示しています。
要約(オリジナル)
Multi-modal foundation models combining vision and language models such as Flamingo or GPT-4 have recently gained enormous interest. Alignment of foundation models is used to prevent models from providing toxic or harmful output. While malicious users have successfully tried to jailbreak foundation models, an equally important question is if honest users could be harmed by malicious third-party content. In this paper we show that imperceivable attacks on images in order to change the caption output of a multi-modal foundation model can be used by malicious content providers to harm honest users e.g. by guiding them to malicious websites or broadcast fake information. This indicates that countermeasures to adversarial attacks should be used by any deployed multi-modal foundation model.
arxiv情報
著者 | Christian Schlarmann,Matthias Hein |
発行日 | 2023-08-21 14:09:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google