Phantom Embeddings: Using Embedding Space for Model Regularization in Deep Neural Networks

要約

タイトル:Phantom Embeddings: Using Embedding Space for Model Regularization in Deep Neural Networks(深層ニューラルネットワークにおけるモデル正則化のための埋め込み空間を利用した幻影埋め込み)

要約:

– 機械学習モデルの強みは、データから複雑な機能の近似を学習する能力にあるが、一方でこの強みは深層ニューラルネットワークのトレーニングを困難にする。
– 複雑なモデルは訓練データを記憶する傾向があり、テストデータの正則化パフォーマンスが低下する。
– L1、L2、dropoutなどの正則化技術は過適合効果を減らすために提案されているが、それらは追加のハイパーパラメータ調整の複雑性をもたらす。
– また、これらのメソッドは、基になるデータ分布による類似度によって過学習が生じた場合には不正確なモデルになる場合がある。
– この論文では、情報豊富な潜在埋め込みとその高い類似性を利用して、モデルを正則化する新しいアプローチを提案する。
– 均質なサンプルのサブセットから幻影埋め込みを作成し、これらの幻影埋め込みを使用して、その潜在埋め込み空間内のインスタンスの間の類似度を減らすことが目的となる。
– 結果として、モデルは埋め込みの組み合わせとして、高価なハイパーパラメータ検索を必要とせずに正則化され、より汎化されたモデルになる。
– この手法を2つの人気かつ困難な画像分類データセット(CIFARとFashionMNIST)で評価し、標準的なベースラインを上回る性能を示し、より良いトレーニング動作を示すことを示す。

要約(オリジナル)

The strength of machine learning models stems from their ability to learn complex function approximations from data; however, this strength also makes training deep neural networks challenging. Notably, the complex models tend to memorize the training data, which results in poor regularization performance on test data. The regularization techniques such as L1, L2, dropout, etc. are proposed to reduce the overfitting effect; however, they bring in additional hyperparameters tuning complexity. These methods also fall short when the inter-class similarity is high due to the underlying data distribution, leading to a less accurate model. In this paper, we present a novel approach to regularize the models by leveraging the information-rich latent embeddings and their high intra-class correlation. We create phantom embeddings from a subset of homogenous samples and use these phantom embeddings to decrease the inter-class similarity of instances in their latent embedding space. The resulting models generalize better as a combination of their embedding and regularize them without requiring an expensive hyperparameter search. We evaluate our method on two popular and challenging image classification datasets (CIFAR and FashionMNIST) and show how our approach outperforms the standard baselines while displaying better training behavior.

arxiv情報

著者 Mofassir ul Islam Arif,Mohsan Jameel,Josif Grabocka,Lars Schmidt-Thieme
発行日 2023-04-14 17:15:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク