要約
ネストされたドロップアウトは、トレーニング中に事前定義された重要度に基づいてネットワークパラメータまたは機能を並べ替えることができるドロップアウト操作の変形です。
I.ネストされたネットの構築:ネストされたネットはニューラルネットワークであり、そのアーキテクチャは、たとえば計算上の制約に基づいて、テスト中に即座に調整できます。
ネストされたドロップアウトは、ネットワークパラメータを暗黙的にランク付けし、サブネットワークのセットを生成して、小さいサブネットワークが大きいサブネットワークの基礎を形成するようにします。
II。
順序付けられた表現の学習:生成モデル(オートエンコーダーなど)の潜在表現に適用されるネストされたドロップアウトは、特徴をランク付けし、次元全体で密な表現の明示的な順序を強制します。
ただし、ドロップアウト率は、トレーニングプロセス全体を通じてハイパーパラメータとして固定されます。
ネストされたネットの場合、ネットワークパラメータが削除されると、データから学習した軌道ではなく、人間が指定した軌道でパフォーマンスが低下します。
生成モデルの場合、特徴の重要性は定数ベクトルとして指定され、表現学習の柔軟性を制限します。
この問題に対処するために、ネストされたドロップアウトの確率的な対応物に焦点を当てます。
ネストされたドロップアウトのパラメーターに有用な勾配を提供し、低コストで多次元の順序付けられたマスクのサンプルを描画する変分ネストされたドロップアウト(VND)操作を提案します。
このアプローチに基づいて、パラメーター分布の順序知識を学習するベイズネストニューラルネットワークを設計します。
さらに、順序付けられた潜在分布を学習するために、さまざまな生成モデルの下でVNDを活用します。
実験では、提案されたアプローチが、分類タスクでの精度、キャリブレーション、およびドメイン外検出の点で、ネストされたネットワークよりも優れていることを示しています。
また、データ生成タスクで関連する生成モデルよりも優れています。
要約(オリジナル)
Nested dropout is a variant of dropout operation that is able to order network parameters or features based on the pre-defined importance during training. It has been explored for: I. Constructing nested nets: the nested nets are neural networks whose architectures can be adjusted instantly during testing time, e.g., based on computational constraints. The nested dropout implicitly ranks the network parameters, generating a set of sub-networks such that any smaller sub-network forms the basis of a larger one. II. Learning ordered representation: the nested dropout applied to the latent representation of a generative model (e.g., auto-encoder) ranks the features, enforcing explicit order of the dense representation over dimensions. However, the dropout rate is fixed as a hyper-parameter during the whole training process. For nested nets, when network parameters are removed, the performance decays in a human-specified trajectory rather than in a trajectory learned from data. For generative models, the importance of features is specified as a constant vector, restraining the flexibility of representation learning. To address the problem, we focus on the probabilistic counterpart of the nested dropout. We propose a variational nested dropout (VND) operation that draws samples of multi-dimensional ordered masks at a low cost, providing useful gradients to the parameters of nested dropout. Based on this approach, we design a Bayesian nested neural network that learns the order knowledge of the parameter distributions. We further exploit the VND under different generative models for learning ordered latent distributions. In experiments, we show that the proposed approach outperforms the nested network in terms of accuracy, calibration, and out-of-domain detection in classification tasks. It also outperforms the related generative models on data generation tasks.
arxiv情報
著者 | Yufei Cui,Yu Mao,Ziquan Liu,Qiao Li,Antoni B. Chan,Xue Liu,Tei-Wei Kuo,Chun Jason Xue |
発行日 | 2022-06-17 17:27:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google