要約
過去10年間の機械学習では、規模と機能が大幅に向上し、ディープニューラルネットワーク(DNN)がさまざまなドメインに展開されることが増えています。
ただし、DNNの内部動作は一般に理解するのが難しく、それらがどのように機能するかを厳密に理解せずにこれらのシステムを使用することの安全性について懸念が生じます。
この調査では、DNNの内部コンポーネントを解釈するための手法に関する文献をレビューします。これを「内部」解釈可能性メソッドと呼びます。
具体的には、重み、ニューロン、サブネットワーク、潜在表現を解釈する方法をレビューし、これらの手法がより安全で信頼性の高いAIシステムを設計するという目標にどのように関連しているかに焦点を当てます。
また、解釈可能性とモジュール性、敵対的ロバストネス、継続的な学習、ネットワーク圧縮、および人間の視覚系の研究における作業との関係を強調します。
最後に、主要な課題について説明し、診断、ベンチマーク、および堅牢性に焦点を当てたAIの安全性の解釈可能性に関する今後の作業について議論します。
要約(オリジナル)
The last decade of machine learning has seen drastic increases in scale and capabilities, and deep neural networks (DNNs) are increasingly being deployed across a wide range of domains. However, the inner workings of DNNs are generally difficult to understand, raising concerns about the safety of using these systems without a rigorous understanding of how they function. In this survey, we review literature on techniques for interpreting the inner components of DNNs, which we call ‘inner’ interpretability methods. Specifically, we review methods for interpreting weights, neurons, subnetworks, and latent representations with a focus on how these techniques relate to the goal of designing safer, more trustworthy AI systems. We also highlight connections between interpretability and work in modularity, adversarial robustness, continual learning, network compression, and studying the human visual system. Finally, we discuss key challenges and argue for future work in interpretability for AI safety that focuses on diagnostics, benchmarking, and robustness.
arxiv情報
著者 | Tilman Räuker,Anson Ho,Stephen Casper,Dylan Hadfield-Menell |
発行日 | 2022-07-28 07:06:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google