Can we learn better with hard samples?

要約

タイトル:ハードサンプルでより良い学習ができるか?

要約:
– 深層学習では、ミニバッチトレーニングが一般的にネットワークパラメータを最適化するために用いられている。
– しかし、従来のミニバッチ法は、データの希薄なサンプルや複雑なパターンを学習することができず、一般化するための時間が長くなる可能性がある。
– この問題に対処するために、従来のアルゴリズムの一種が提案されており、ハイロスのミニバッチに焦点を当ててネットワークをトレーニングする。
– この研究は、CIFAR-10、CIFAR-100、STL-10の3つのベンチマークデータセットでトレーニングされた様々な深層ニューラルネットワークを用いた提案トレーニング方法の効果を評価している。
– 実験の結果、提案手法は従来のミニバッチトレーニング法に比べてテストの精度が大幅に向上し、収束が加速することが明らかになっている。
– さらに、トレーニングに考慮されるミニバッチの数を決定するハイパーパラメーター「delta」を導入している。
– 「delta」の異なる値による実験では、小さい「delta」の値の場合、提案手法の性能は一般的に類似したテスト精度とより高速な一般化を示すことが明らかになっている。
– 提案手法は、STL-10のEfficientNet-B4で従来のミニバッチ法よりも26.47%少ないエポックで一般化することが示されている。
– また、提案手法はCIFAR-100のResNet-18でテスト上位1精度を7.26%改善した。

要約(オリジナル)

In deep learning, mini-batch training is commonly used to optimize network parameters. However, the traditional mini-batch method may not learn the under-represented samples and complex patterns in the data, leading to a longer time for generalization. To address this problem, a variant of the traditional algorithm has been proposed, which trains the network focusing on mini-batches with high loss. The study evaluates the effectiveness of the proposed training using various deep neural networks trained on three benchmark datasets (CIFAR-10, CIFAR-100, and STL-10). The deep neural networks used in the study are ResNet-18, ResNet-50, Efficient Net B4, EfficientNetV2-S, and MobilenetV3-S. The experimental results showed that the proposed method can significantly improve the test accuracy and speed up the convergence compared to the traditional mini-batch training method. Furthermore, we introduce a hyper-parameter delta ({\delta}) that decides how many mini-batches are considered for training. Experiments on various values of {\delta} found that the performance of the proposed method for smaller {\delta} values generally results in similar test accuracy and faster generalization. We show that the proposed method generalizes in 26.47% less number of epochs than the traditional mini-batch method in EfficientNet-B4 on STL-10. The proposed method also improves the test top-1 accuracy by 7.26% in ResNet-18 on CIFAR-100.

arxiv情報

著者 Subin Sahayam,John Zakkam,Umarani Jayaraman
発行日 2023-04-07 05:45:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク