A Law of Data Separation in Deep Learning

要約

多層ニューラル ネットワークは、多くの人工知能アプリケーションで超人的なパフォーマンスを達成しています。
ただし、それらのブラックボックスの性質により、すべてのレイヤーで入力データをラベルに変換するための基本的なメカニズムがわかりにくくなり、新しいタスクのアーキテクチャ設計や重要な意思決定の解釈が妨げられます。
この問題に対処するために、現実世界のディープ ニューラル ネットワークが分類問題の最下層から最上位層へのクラス メンバーシップに従ってデータを分離する方法を管理する正確な法則を導入しました。
この法則は、各層が \textit{equal} 乗法係数によってデータ分離の特定の尺度を大まかに改善することを示しています。
この法則は、トレーニングの後期段階で、AlexNet、VGGNet、ResNet などの最新のアーキテクチャに現れます。
この法則とデータ分離の観点から、ネットワーク アーキテクチャの設計、トレーニング中のモデルの堅牢性とサンプル外パフォーマンスの改善、ディープ ラーニング予測の解釈に関する実用的なガイドラインが提供されます。

要約(オリジナル)

Multilayer neural networks have achieved superhuman performance in many artificial intelligence applications. However, their black-box nature obscures the underlying mechanism for transforming input data into labels throughout all layers, thus hindering architecture design for new tasks and interpretation for high-stakes decision makings. We addressed this problem by introducing a precise law that governs how real-world deep neural networks separate data according to their class membership from the bottom layers to the top layers in classification problems. This law shows that each layer roughly improves a certain measure of data separation by an \textit{equal} multiplicative factor. This law manifests in modern architectures such as AlexNet, VGGNet, and ResNet in the late phase of training. This law together with the perspective of data separation offers practical guidelines for designing network architectures, improving model robustness and out-of-sample performance during training, as well as interpreting deep learning predictions.

arxiv情報

著者 Hangfeng He,Weijie J. Su
発行日 2022-10-31 02:25:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.IT, cs.LG, math.IT, stat.ML パーマリンク