Deep Learning for Robust and Explainable Models in Computer Vision

要約

機械学習および深層学習 (ML および DL) 研究における最近の進歩により、膨大な量のデータを活用し、数百万のパラメータを含む巨大なモデルを最適化し、画像処理用の正確なネットワークを取得するための優れたツールが提供されました。
これらの発展により、オートメーションおよび人間支援 AI 業界で人工知能 (AI) を使用する大きな機会が開かれます。
しかし、実際に導入され使用されるモデルが増えるにつれて、多くの課題が浮上しています。
この論文では、ML と DL を実際に使用する場合の堅牢性と説明可能性の課題に対処するさまざまなアプローチを紹介します。
堅牢性と信頼性は、認証と実際の展開の前に、あらゆるモデルの重要な要素です。
ディープ畳み込みニューラル ネットワーク (CNN) は、回転やスケーリングなどの入力の変換や、敵対的攻撃の文献で説明されているような意図的な操作に対して脆弱性を示します。
さらに、AI ベースのモデルに対する信頼を構築するには、現在のモデルをより深く理解し、アプリオリに説明可能かつ解釈可能な手法を開発する必要があります。
この論文では、コンピュータ ビジョン モデルの堅牢性と説明可能性の発展について説明します。
さらに、この論文は、関連研究では解釈可能性とロバスト性が一見無関係であるにもかかわらず、ロバスト性を向上させるために視覚モデルの特徴応答視覚化 (モデルの解釈) を使用する例を提供します。
堅牢で説明可能なビジョンモデルのための方法論の開発に加えて、この論文の重要なメッセージは、ビジョンモデルを理解し、その設計と堅牢性を改善するためのツールとしてモデル解釈技術を導入することです。
理論的な発展に加えて、この論文では、医療画像処理や感情コンピューティングなど、さまざまな状況における ML と DL のいくつかの応用例を示します。

要約(オリジナル)

Recent breakthroughs in machine and deep learning (ML and DL) research have provided excellent tools for leveraging enormous amounts of data and optimizing huge models with millions of parameters to obtain accurate networks for image processing. These developments open up tremendous opportunities for using artificial intelligence (AI) in the automation and human assisted AI industry. However, as more and more models are deployed and used in practice, many challenges have emerged. This thesis presents various approaches that address robustness and explainability challenges for using ML and DL in practice. Robustness and reliability are the critical components of any model before certification and deployment in practice. Deep convolutional neural networks (CNNs) exhibit vulnerability to transformations of their inputs, such as rotation and scaling, or intentional manipulations as described in the adversarial attack literature. In addition, building trust in AI-based models requires a better understanding of current models and developing methods that are more explainable and interpretable a priori. This thesis presents developments in computer vision models’ robustness and explainability. Furthermore, this thesis offers an example of using vision models’ feature response visualization (models’ interpretations) to improve robustness despite interpretability and robustness being seemingly unrelated in the related research. Besides methodological developments for robust and explainable vision models, a key message of this thesis is introducing model interpretation techniques as a tool for understanding vision models and improving their design and robustness. In addition to the theoretical developments, this thesis demonstrates several applications of ML and DL in different contexts, such as medical imaging and affective computing.

arxiv情報

著者 Mohammadreza Amirian
発行日 2024-03-27 15:17:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク