Benchmarking Robustness to Adversarial Image Obfuscations

要約

自動化されたコンテンツのフィルタリングとモデレーションは、オンライン プラットフォームが協力を促進し、悪用を防止する熱心なユーザー コミュニティを構築できるようにする重要なツールです。
残念ながら、機知に富んだアクターは、プラットフォームのポリシーや行動規範に違反するコンテンツを投稿するために、自動フィルターをバイパスしようとします。
この目標を達成するために、これらの悪意のあるアクターは、ポリシーに違反する画像を難読化して (たとえば、慎重に選択された無害な画像または視覚パターンによって有害な画像をオーバーレイする)、機械学習モデルが正しい決定に到達するのを防ぎます。
この論文では、研究者にこの特定の問題に取り組み、新しい画像ベンチマークを提示してもらいます。
このベンチマークは、ImageNet に基づいており、悪意のあるアクターによって作成されたタイプの難読化をシミュレートします。
元のコンテンツの意図を維持する、一般的で抜本的な、敵対的な変更を提案することにより、ImageNet-$\textrm{C}$ および ImageNet-$\bar{\textrm{C}}$ を超えています。
これは、$\ell_p$ ノルムで制限された敵対者によって考慮されるものよりも一般的な敵対的脅威に取り組むことを目的としています。
ベンチマークで 33 の事前トレーニング済みモデルを評価し、一般化を測定するために難読化のサブセットでさまざまな拡張、アーキテクチャ、およびトレーニング方法を使用してモデルをトレーニングします。
このベンチマークにより、研究者がモデルと方法をテストし、これらの難読化に対してより堅牢な新しいアプローチを見つけようとするようになることを願っています。

要約(オリジナル)

Automated content filtering and moderation is an important tool that allows online platforms to build striving user communities that facilitate cooperation and prevent abuse. Unfortunately, resourceful actors try to bypass automated filters in a bid to post content that violate platform policies and codes of conduct. To reach this goal, these malicious actors may obfuscate policy violating images (e.g. overlay harmful images by carefully selected benign images or visual patterns) to prevent machine learning models from reaching the correct decision. In this paper, we invite researchers to tackle this specific issue and present a new image benchmark. This benchmark, based on ImageNet, simulates the type of obfuscations created by malicious actors. It goes beyond ImageNet-$\textrm{C}$ and ImageNet-$\bar{\textrm{C}}$ by proposing general, drastic, adversarial modifications that preserve the original content intent. It aims to tackle a more common adversarial threat than the one considered by $\ell_p$-norm bounded adversaries. We evaluate 33 pretrained models on the benchmark and train models with different augmentations, architectures and training methods on subsets of the obfuscations to measure generalization. We hope this benchmark will encourage researchers to test their models and methods and try to find new approaches that are more robust to these obfuscations.

arxiv情報

著者 Florian Stimberg,Ayan Chakrabarti,Chun-Ta Lu,Hussein Hazimeh,Otilia Stretcu,Wei Qiao,Yintao Liu,Merve Kaya,Cyrus Rashtchian,Ariel Fuxman,Mehmet Tek,Sven Gowal
発行日 2023-01-30 15:36:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, I.2.10 パーマリンク