LocalStyleFool: Regional Video Style Transfer Attack Using Segment Anything Model

要約

これまでの研究では、巧妙に作成された敵対的な摂動がビデオ認識システムのセキュリティを脅かす可能性があることが示されています。
StyleFool など、摂動が意味的に不変である場合、攻撃者は低いクエリ バジェットでそのようなモデルに侵入する可能性があります。
クエリの効率性にもかかわらず、StyleFool は各フレームのすべてのピクセルへのスタイル転送を利用するため、特徴点領域の自然さは依然として改善が必要です。
このギャップを埋めるために、ローカルスタイル転送ベースの摂動をビデオに重ね合わせる、改良されたブラックボックスビデオ敵対攻撃である LocalStyleFool を提案します。
Segment Anything Model (SAM) の人気とスケーラブルな使いやすさの利点を活かして、まずセマンティック情報に従ってさまざまな領域を抽出し、次にビデオ ストリームを通じてそれらを追跡して時間的一貫性を維持します。
次に、転移ベースの勾配情報と領域の結合基準に基づいて選択されたいくつかの領域に、スタイル転移ベースの摂動を追加します。
様式化されたビデオを敵対的なものにするために、摂動の微調整が行われます。
私たちは、LocalStyleFool が競争力のある騙し率とクエリ効率を維持しながら、人間による評価調査を通じてフレーム内とフレーム間の両方の自然さを改善できることを実証します。
高解像度データセットでの成功した実験は、SAM の綿密なセグメンテーションが高解像度データ下での敵対的攻撃のスケーラビリティの向上に役立つことも示しています。

要約(オリジナル)

Previous work has shown that well-crafted adversarial perturbations can threaten the security of video recognition systems. Attackers can invade such models with a low query budget when the perturbations are semantic-invariant, such as StyleFool. Despite the query efficiency, the naturalness of the minutia areas still requires amelioration, since StyleFool leverages style transfer to all pixels in each frame. To close the gap, we propose LocalStyleFool, an improved black-box video adversarial attack that superimposes regional style-transfer-based perturbations on videos. Benefiting from the popularity and scalably usability of Segment Anything Model (SAM), we first extract different regions according to semantic information and then track them through the video stream to maintain the temporal consistency. Then, we add style-transfer-based perturbations to several regions selected based on the associative criterion of transfer-based gradient information and regional area. Perturbation fine adjustment is followed to make stylized videos adversarial. We demonstrate that LocalStyleFool can improve both intra-frame and inter-frame naturalness through a human-assessed survey, while maintaining competitive fooling rate and query efficiency. Successful experiments on the high-resolution dataset also showcase that scrupulous segmentation of SAM helps to improve the scalability of adversarial attacks under high-resolution data.

arxiv情報

著者 Yuxin Cao,Jinghao Li,Xi Xiao,Derui Wang,Minhui Xue,Hao Ge,Wei Liu,Guangwu Hu
発行日 2024-03-18 10:53:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク