Patch Gradient Descent: Training Neural Networks on Very Large Images

要約

従来の CNN モデルは、比較的低解像度の画像 (<300 ピクセル) でトレーニングおよびテストされており、計算とメモリの制約により、大規模な画像で直接操作することはできません。 パッチ勾配降下 (PatchGD) を提案します。これは、大規模な画像で既存の CNN アーキテクチャをエンドツーエンドでトレーニングできる効果的な学習戦略です。 PatchGD は、画像全体に対して勾配ベースの更新を一度に実行する代わりに、一度に画像の小さな部分のみでモデルの更新を実行することによって適切な解決策を達成できるはずであるという仮説に基づいています。 それは反復の過程でカバーされます。 したがって、PatchGD は、大規模な画像でモデルをトレーニングするときに、より優れたメモリと計算効率を広く享受します。 PatchGD は、異なるメモリ制約の下で ResNet50 および MobileNetV2 モデルを使用した PANDA および UltraMNIST の 2 つのデータセットで徹底的に評価されています。 私たちの評価では、特に計算メモリが限られている場合に、大きな画像を処理する際に、PatchGD が標準の勾配降下法よりもはるかに安定して効率的であることを明確に示しています。

要約(オリジナル)

Traditional CNN models are trained and tested on relatively low resolution images (<300 px), and cannot be directly operated on large-scale images due to compute and memory constraints. We propose Patch Gradient Descent (PatchGD), an effective learning strategy that allows to train the existing CNN architectures on large-scale images in an end-to-end manner. PatchGD is based on the hypothesis that instead of performing gradient-based updates on an entire image at once, it should be possible to achieve a good solution by performing model updates on only small parts of the image at a time, ensuring that the majority of it is covered over the course of iterations. PatchGD thus extensively enjoys better memory and compute efficiency when training models on large scale images. PatchGD is thoroughly evaluated on two datasets - PANDA and UltraMNIST with ResNet50 and MobileNetV2 models under different memory constraints. Our evaluation clearly shows that PatchGD is much more stable and efficient than the standard gradient-descent method in handling large images, and especially when the compute memory is limited.

arxiv情報

著者 Deepak K. Gupta,Gowreesh Mago,Arnav Chavan,Dilip K. Prasad
発行日 2023-01-31 18:04:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク