Analyzing the Quality Attributes of AI Vision Models in Open Repositories Under Adversarial Attacks

要約

AI モデルは急速に進化するため、HuggingFace などのオープン リポジトリに頻繁にリリースされます。
これらのモデルを実稼働開発ライフサイクルに統合する前に、これらのモデルに対して品質保証検証を実行することが不可欠です。
バランスの取れた精度とコンピューティングコストの観点から効率を評価することに加えて、敵対的攻撃は AI モデルの堅牢性と説明可能性に対する潜在的な脅威です。
一方、XAI は、入力を出力に事後的に近似するアルゴリズムを適用して、寄与する特徴を特定します。
敵対的な摂動によって XAI 説明の有用性が低下する可能性もあり、さらなる調査が必要です。
このペーパーでは、AI モデルの精度の検証、ベンチマーク摂動によるロバスト性の評価、説明ユーティリティの比較、オーバーヘッドの評価など、下流の評価タスク用に設計された統合プロセスを紹介します。
CNN ベース、Transformer ベース、およびハイブリッド アーキテクチャ、3 種類の摂動、および 5 つの XAI メソッドを含む 6 つのコンピューター ビジョン モデルを含む評価シナリオを示し、結果として 90 個の一意の組み合わせが得られます。
このプロセスにより、敵対的な摂動に応答する特定された主要領域の観点から、XAI 手法間の説明の有用性が明らかになります。
このプロセスでは、各 AI モデルの複数の属性を示す集計結果が生成されます。

要約(オリジナル)

As AI models rapidly evolve, they are frequently released to open repositories, such as HuggingFace. It is essential to perform quality assurance validation on these models before integrating them into the production development lifecycle. In addition to evaluating efficiency in terms of balanced accuracy and computing costs, adversarial attacks are potential threats to the robustness and explainability of AI models. Meanwhile, XAI applies algorithms that approximate inputs to outputs post-hoc to identify the contributing features. Adversarial perturbations may also degrade the utility of XAI explanations that require further investigation. In this paper, we present an integrated process designed for downstream evaluation tasks, including validating AI model accuracy, evaluating robustness with benchmark perturbations, comparing explanation utility, and assessing overhead. We demonstrate an evaluation scenario involving six computer vision models, which include CNN-based, Transformer-based, and hybrid architectures, three types of perturbations, and five XAI methods, resulting in ninety unique combinations. The process reveals the explanation utility among the XAI methods in terms of the identified key areas responding to the adversarial perturbation. The process produces aggregated results that illustrate multiple attributes of each AI model.

arxiv情報

著者 Zerui Wang,Yan Liu
発行日 2024-03-26 15:52:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク