Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales

要約

堅牢で解釈可能な視覚システムを開発することは、信頼できる人工知能への重要なステップです。
この点に関して、有望なパラダイムでは、タスクに必要な不変構造、たとえば幾何学的不変性を基本的な画像表現に埋め込むことを検討しています。
ただし、このような不変表現は通常、識別能力が限られており、大規模で信頼できる視覚タスクへの応用が制限されます。
この未解決の問題について、私たちは階層的不変性の系統的な調査を実施し、理論的、実践的、応用的な観点からこのトピックを探求します。
理論レベルでは、畳み込みニューラル ネットワーク (CNN) のような階層アーキテクチャを使用して、完全に解釈可能な方法で過完全な不変式を構築する方法を示します。
一般的なブループリント、特定の定義、不変プロパティ、および数値実装が提供されます。
実践レベルでは、この理論的フレームワークを特定のタスクに合わせてカスタマイズする方法について説明します。
過剰な完成度により、差別的な特徴が損なわれます。
タスクは、Neural Architecture Search (NAS) のような方法で適応的に形成できます。
テクスチャ、ディジット、寄生虫の分類実験における精度、不変性、効率の結果を用いて、上記の議論を実証します。
さらに、アプリケーション レベルでは、私たちの表現は、敵対的な摂動や人工知能生成コンテンツ (AIGC) に関する現実世界のフォレンジック タスクで調査されます。
このような応用は、提案された戦略が理論的に約束された不変性を実現するだけでなく、深層学習の時代であっても競争力のある識別能力を示すことを明らかにします。
大規模な堅牢で解釈可能な視覚タスクの場合、階層的不変式表現は、従来の CNN や不変式に代わる効果的な代替手段と考えることができます。

要約(オリジナル)

Developing robust and interpretable vision systems is a crucial step towards trustworthy artificial intelligence. In this regard, a promising paradigm considers embedding task-required invariant structures, e.g., geometric invariance, in the fundamental image representation. However, such invariant representations typically exhibit limited discriminability, limiting their applications in larger-scale trustworthy vision tasks. For this open problem, we conduct a systematic investigation of hierarchical invariance, exploring this topic from theoretical, practical, and application perspectives. At the theoretical level, we show how to construct over-complete invariants with a Convolutional Neural Networks (CNN)-like hierarchical architecture yet in a fully interpretable manner. The general blueprint, specific definitions, invariant properties, and numerical implementations are provided. At the practical level, we discuss how to customize this theoretical framework into a given task. With the over-completeness, discriminative features w.r.t. the task can be adaptively formed in a Neural Architecture Search (NAS)-like manner. We demonstrate the above arguments with accuracy, invariance, and efficiency results on texture, digit, and parasite classification experiments. Furthermore, at the application level, our representations are explored in real-world forensics tasks on adversarial perturbations and Artificial Intelligence Generated Content (AIGC). Such applications reveal that the proposed strategy not only realizes the theoretically promised invariance, but also exhibits competitive discriminability even in the era of deep learning. For robust and interpretable vision tasks at larger scales, hierarchical invariant representation can be considered as an effective alternative to traditional CNN and invariants.

arxiv情報

著者 Shuren Qi,Yushu Zhang,Chao Wang,Zhihua Xia,Jian Weng,Xiaochun Cao
発行日 2024-02-23 16:50:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク